00:00:00

Share Your Feedback 🏝️

RL on Incorrect Synthetic Data

RL on Incorrect Synthetic Data

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Character.AI - Optimizing AI Inference Next: Model | Claude 3.5 Sonnet

RL on Incorrect Synthetic Data

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-06-20

RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold

  • url: https://arxiv.org/abs/2406.14532
  • pdf: https://arxiv.org/pdf/2406.14532
  • html: https://arxiv.org/html/2406.14532v1
  • abstract: Training on model-generated synthetic data is a promising approach for finetuning LLMs, but it remains unclear when it helps or hurts. In this paper, we investigate this question for math reasoning via an empirical study, followed by building a conceptual understanding of our observations. First, we find that while the typical approach of finetuning a model on synthetic correct or positive problem-solution pairs generated by capable models offers modest performance gains, sampling more correct solutions from the finetuned learner itself followed by subsequent fine-tuning on this self-generated data doubles the efficiency of the same synthetic problems. At the same time, training on model-generated positives can amplify various spurious correlations, resulting in flat or even inverse scaling trends as the amount of data increases. Surprisingly, we find that several of these issues can be addressed if we also utilize negative responses, i.e., model-generated responses that are deemed incorrect by a final answer verifier. Crucially, these negatives must be constructed such that the training can appropriately recover the utility or advantage of each intermediate step in the negative response. With this per-step scheme, we are able to attain consistent gains over only positive data, attaining performance similar to amplifying the amount of synthetic data by . We show that training on per-step negatives can help to unlearn spurious correlations in the positive data, and is equivalent to advantage-weighted reinforcement learning (RL), implying that it inherits robustness benefits of RL over imitating positive data alone.

[합성데이터 및 Regret RL 관련 색인마킹]

TL;DR


AI의 수학 인퍼런스 능력 향상을 위한 합성 데이터의 역할

  1. 합성 데이터의 중요성: LLM의 수학 인퍼런스 능력을 향상시키기 위한 합성 데이터의 사용은 정확하고 실제적인 문제해결을 가능하게 합니다.
  2. 긍정적 vs 부정적 합성 데이터: 긍정적 데이터만 사용할 때 발생하는 한계를 부정적 합성 데이터를 활용하여 극복하며, 이를 통해 모델의 일반화 능력을 향상시킵니다.
  3. 학습 방법의 혁신: 가중치가 부여된 강화학습을 통해 핵심적인 단계를 강조하고, 부적합한 단계는 배제함으로써 보다 정확한 인퍼런스이 가능합니다.

  • 합성 데이터 훈련의 이중성: Math Reasoning Task 해결

    대규모 언어모델(LLM) 파인튜닝에 있어 모델 생성 합성 데이터 훈련은 유망한 방법이지만, 언제 도움이 되고 언제 방해가 되는지 명확하지 않습니다. 이 논문에서는 실증 연구를 통해 Math Reasoning Task를 대상으로 이 질문을 탐구하고, 관찰 결과에 대한 개념적 이해를 구축합니다.

    첫째, 능력 있는 모델이 생성한 합성 정답 문제-해결 쌍으로 모델을 파인튜닝하는 전형적인 방법은 약간의 성능 향상을 가져올 수 있지만, 파인튜닝된 학습자 자체에서 더 많은 정답 솔루션을 샘플링하여 이 자체 생성 데이터로 다시 파인튜닝하면 동일한 합성 문제의 효율성을 두 배 증가시킨다는 것을 발견했습니다.

    하지만 동시에, 모델 생성 양수 데이터로 훈련하면 다양한 잘못된 상관관계를 증폭시켜 데이터 양이 증가함에 따라 성능 향상이 둔화되거나 반대로 악화되는 경향을 보입니다. 최종 답변 검증기를 통해 부정확하다고 판단되는 모델 생성 응답, 즉 부정적인 응답을 활용하면 이런 문제들 중 일부를 해결할 수 있다는 것을 발견했습니다.

    중요한 것은 부정적인 훈련이 부정적인 응답의 각 단계에서 유용성이나 이점을 적절하게 복구할 수 있도록 구성되어야 합니다.

    이런 단계별 방식을 통해 양수 데이터만 사용하는 경우보다 일관된 성능 향상을 달성할 수 있으며, 합성 데이터 양을 8배 늘린 것과 유사한 성능을 얻을 수 있습니다.

    단계별 부정 데이터로 훈련하면 양수 데이터의 잘못된 상관관계를 깨우는 데 도움이 되며, 이는 이점 가중 강화 학습(RL)과 동등하다는 것을 보여줍니다.

    즉, 단순히 양수 데이터만 모방하는 것보다 RL의 강인성 이점을 상속받는다는 것을 의미합니다.

  • 합성 데이터의 필요성과 기대 효과

    최근의 AI 연구는 대규모 언어모델(LLM)의 수학 인퍼런스 능력을 향상시키기 위해 합성 데이터의 중요성을 재조명하고 있습니다. 기존의 training dataset만으로는 모델의 일반화 능력과 실제 문제 해결 능력이 한계에 부딪히는 경우가 많습니다. 따라서, 다양한 문제에 적응할 수 있도록 새로운 형태의 데이터 생성 방법이 필요한데, 이를 위해 합성 데이터가 주목받고 있습니다. 합성 데이터는 AI이 스스로 생성한 데이터로, 특정 문제에 대한 모델의 반응을 학습하는데 사용됩니다.

  • 선행 연구 및 문제점

    이전의 연구들은 주로 긍정적인 합성 데이터, 즉 정확한 답변을 생성하여 모델을 훈련시키는 방식에 초점을 맞추었습니다. 그러나 이 방식은 모델이 일부 데이터에 과적합되는 문제를 야기할 수 있으며, 실제 복잡한 문제 상황에서는 제대로 된 성능을 발휘하지 못하는 경우가 많습니다. 특히, 모델이 잘못된 중간 단계를 학습하는 경우, 최종 결과에 이르는 과정에서 오류를 내거나 불필요한 단계를 포함시킬 위험이 있습니다.

  • 합성 데이터의 새로운 접근: 부정적 데이터의 도입

    이런 문제를 해결하기 위해, 연구자들은 부정적인 합성 데이터, 즉 잘못된 답변을 생성하여 모델이 오류를 인식하고 바로잡을 수 있도록 훈련하는 방법을 제안했습니다. 이는 모델이 단순히 정답만을 학습하는 것이 아니라, 오답을 피하는 방법도 함께 학습하게 함으로써 보다 강인한 인퍼런스 능력을 개발할 수 있도록 합니다.

  • 가중치가 부여된 강화학습(Advantage-weighted RL)

    부정적 데이터를 활용하는 핵심 방법 중 하나는 가중치가 부여된 강화학습입니다. 이 방법은 각 단계에서의 선택이 최종 결과에 미치는 영향을 평가하고, 중요한 단계에 더 높은 가중치를 부여합니다. 이를 통해 모델은 중요한 결정 지점에서 더 정확한 선택을 하도록 학습되며, 잘못된 단계는 배제됩니다.

  • 모델 학습과 성능 평가

    실제 학습 과정에서는 합성 데이터를 생성한 후, 이 데이터를 바탕으로 모델을 단계별로 훈련합니다. 훈련된 모델은 다양한 수학 문제를 해결하는 능력이 평가되며, 부정적 데이터를 통해 학습된 모델은 일반적인 데이터만을 사용한 모델에 비해 더 높은 정확도와 강인성을 보입니다.

  • 결론 및 향후 연구 방향

    이 연구는 합성 데이터가 LLM의 수학 인퍼런스 능력을 향상시키는 데 얼마나 효과적일 수 있는지를 보여줍니다. 특히, 부정적 데이터의 도입은 모델의 일반화 능력을 크게 향상시킬 수 있는 가능성을 열어주며, 미래의 연구에서는 이런 접근 방법을 다른 유형의 문제에도 적용하여 그 효과를 검증할 필요가 있습니다.

Previous: Character.AI - Optimizing AI Inference Next: Model | Claude 3.5 Sonnet

post contain ""

    No matching posts found containing ""