00:00:00

Share Your Feedback 🏝️

Benchmark | A Careful Examination

Benchmark | A Careful Examination

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Evaluation | Replacing Judges Next: Inner Working**

Benchmark | A Careful Examination

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-04-30

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

  • url: https://arxiv.org/abs/2405.00332
  • pdf: https://arxiv.org/pdf/2405.00332
  • html https://arxiv.org/html/2405.00332v1
  • abstract: Large language models (LLMs) have achieved impressive success on many benchmarks for mathematical reasoning. However, there is growing concern that some of this performance actually reflects dataset contamination, where data closely resembling benchmark questions leaks into the training data, instead of true reasoning ability. To investigate this claim rigorously, we commission Grade School Math 1000 (GSM1k) GSM1k is designed to mirror the style and complexity of the established GSM8k benchmark, the gold standard for measuring elementary mathematical reasoning. We ensure that the two benchmarks are comparable across important metrics such as human solve rates, number of steps in solution, answer magnitude, and more. When evaluating leading open- and closed-source LLMs on GSM1k, we observe accuracy drops of up to 13%, with several families of models (e.g. Phi and Mistral) showing evidence of systematic overfitting across almost all model sizes. At the same time, many models, especially those on the frontier, (e.g. Gemini/GPT/Claude) show minimal signs of overfitting. Further analysis suggests a positive relationship (Spearman’s 𝑟^2 =0.32) between a model’s probability of generating an example from GSM8k and its performance gap between GSM8k and GSM1k, suggesting that many models may have partially memorized GSM8k.

Contents

TL;DR


GSM1k 데이터셋을 통한 대규모 언어모델의 오버피팅 검증

  • 문제 인식:: 대규모 언어모델(LLM)의 오버피팅 여부 검증 필요
  • 해결 방법: 새로 구성한 GSM1k 데이터셋을 통해 LLM의 오버피팅 평가
  • 결과: 일부 모델은 오버피팅 증거가 있으며, 주요 모델군은 여전히 일반화 능력을 보임

[서론]

대규모 언어모델(LLM)의 인퍼런스 능력을 개선하는 것은 현재 연구에서 중요한 방향 중 하나입니다. 이를 위해서는 현재 LLM의 능력을 적절히 벤치마킹하는 것이 필수적입니다. 현재는 GSM8k(Cobbe et al. [2021]), MATH(Hendrycks et al. [2021b]), MBPP(Austin et al. [2021]), HumanEval(Chen et al. [2021]), SWEBench(Jimenez et al. [2024])와 같은 공공 벤치마크에 주로 의존하고 있습니다. 그러나 LLM은 인터넷에서 수집한 방대한 데이터에 의해 훈련되기 때문에, 이런 벤치마크는 해당 질문과 유사한 예제를 포함할 가능성이 있습니다. 이로 인해 모델이 실제로는 더 약한 인퍼런스 능력을 가지고 있음에도 불구하고, 훈련 중 또는 후에 접한 정답을 단순히 반복하는 경우가 발생할 수 있습니다. 이런 문제를 해결하기 위해, GSM1k라는 새로 구성된 1250개의 초등학교 수준의 수학 문제 집합을 만들었습니다. GSM1k는 GSM8k와 유사한 난이도 분포를 가지도록 설계되었습니다.

[문제와 해결 방법]

[문제 정의]

대규모 언어모델의 성능 평가에서 데이터 오염 문제는 잘 알려져 있습니다. (Balloccu et al. [2024], Magar and Schwartz [2022], Sainz et al. [2023], Jacovi et al. [2023], Xu et al. [2024]) 벤치마크 데이터와 유사한 데이터를 training dataset에서 제거하려는 노력이 빈번히 이루어지지만, 데이터 오염을 완전히 제거하는 것은 어렵습니다. 이런 문제를 해결하기 위해, 다음과 같은 접근 방식을 사용했습니다.

  1. 데이터셋 생성: 휴먼 주석자가 참여하여 GSM1k 데이터셋을 생성했습니다. 이 데이터셋은 GSM8k와 유사한 난이도를 가지며, 기본적인 산술 연산(덧셈, 뺄셈, 곱셈, 나눗셈)만으로 해결할 수 있는 문제들로 구성되었습니다.
  2. 품질 검증: 생성된 문제들은 여러 단계의 검증 과정을 거쳐 정확성과 적절한 난이도를 보장했습니다.
  3. 난이도 매칭: GSM8k와 유사한 난이도 분포를 갖도록 문제를 선별하고, 최종적으로 1250개의 문제로 구성된 GSM1k를 확정했습니다.

[선행 연구]

이 연구는 2019년 ImageNet 분류기에 대한 오버피팅 연구(Recht et al. [2019])에서 영감을 받았습니다. 이 연구에서는 새로운 CIFAR10 및 ImageNet 버전을 만들어 성능 격차를 측정했습니다. GSM8k 벤치마크에 대해 유사한 분석을 수행했습니다. 또한, 데이터 오염 문제를 해결하기 위한 다양한 방법이 제안되었습니다. (Xu et al. [2024], Srivastava et al. [2024])

[방법]

[데이터셋 생성 및 품질 검증]

GSM1k 데이터셋은 Scale AI를 통해 고용된 휴먼 주석자들에 의해 생성되었습니다. 주석자들은 GSM8k 예제 문제들을 참고하여 유사한 난이도의 새로운 문제를 작성했습니다. 생성된 문제들은 여러 단계의 검증 과정을 거쳐 최종 데이터셋에 포함되었습니다.

\[\text{Problem Difficulty} \approx \text{Number of Required Steps}\]

[난이도 매칭]

GSM8k와 유사한 난이도 분포를 보장하기 위해, 각 문제의 해결 단계를 기반으로 난이도를 추정했습니다. 최종적으로, 해결 단계 수에 기반하여 문제를 선별하고, GSM8k와 유사한 난이도 분포를 가진 1250개의 문제로 구성된 GSM1k를 확정했습니다.

[분석 및 결과]

GSM1k를 사용하여 여러 오픈소스 및 폐쇄형 LLM을 평가했습니다. 그 결과, 일부 모델군, 특히 Mistral과 Phi 모델군은 오버피팅의 증거를 보였습니다. 모델 성능과 데이터 오염 간의 관계를 분석한 결과, 데이터 오염이 오버피팅의 한 원인임을 시사하는 상관관계가 나타났습니다.

[주요 결과]

  1. 오버피팅 모델: Mistral 및 Phi 모델군은 거의 모든 버전과 크기에서 오버피팅 경향을 보였습니다.
  2. 일반화 능력: 대부분의 모델, 특히 SOTA 모델들은 여전히 새로운 수학 문제에 대해 일반화 능력을 보였습니다.
\[\text{Spearman’s } r^2 = 0.32\]

[결론]

GSM1k를 사용하여 대규모 언어모델의 오버피팅 문제를 검증했습니다. 일부 모델은 데이터 오염에 의해 오버피팅의 증거를 보였으며, 모델 성능의 하락을 확인했습니다. 그러나 SOTA 모델들은 여전히 우수한 일반화 능력을 보였으며, 오버피팅 문제를 극복할 수 있는 가능성을 보였습니다.

Previous: Evaluation | Replacing Judges Next: Inner Working**

post contain ""

    No matching posts found containing ""