00:00:00

Share Your Feedback 🏝️

Model, Math | DeepSeekMath

Model, Math | DeepSeekMath

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Augumentation | Finding and Fixing Model Weaknesses Next: Evaluation | Replacing Judges

Model, Math | DeepSeekMath

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-04-28

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

  • url: https://arxiv.org/abs/2402.03300
  • pdf: https://arxiv.org/pdf/2402.03300
  • abstract: Mathematical reasoning poses a significant challenge for language models due to its complex and structured nature. In this paper, we introduce DeepSeekMath 7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B math-related tokens sourced from Common Crawl, together with natural language and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the competition-level MATH benchmark without relying on external toolkits and voting techniques, approaching the performance level of Gemini-Ultra and GPT-4. Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH. The mathematical reasoning capability of DeepSeekMath is attributed to two key factors: First, we harness the significant potential of publicly available web data through a meticulously engineered data selection pipeline. Second, we introduce Group Relative Policy Optimization (GRPO), a variant of Proximal Policy Optimization (PPO), that enhances mathematical reasoning abilities while concurrently optimizing the memory usage of PPO.

Contents

TL;DR


[대규모 언어모델에서의 수학적 인퍼런스 능력 향상에 관한 연구]

  1. DeepSeekMath는 고성능 비공개 언어모델들에 필적하는 수학적 인퍼런스 능력을 갖춘 새로운 도메인 특화 언어 모델로, 공개된 모델들보다 우수한 성능을 제공합니다.
  2. 이 모델은 120B 수학 토큰으로 구성된 DeepSeekMath Corpus를 기반으로 하며, 수학적 지시사항 튜닝과 GRPO라는 새로운 강화학습 알고리즘을 통해 훈련됩니다.
  3. DeepSeekMath는 GSM8K 및 MATH 데이터셋에서 높은 정확도를 달성하고, GRPO를 사용하여 모델의 수학적 능력을 최적화함으로써 다양한 언어 벤치마크에서도 개선된 성능을 보여줍니다.

[방법]

  1. 데이터셋 구축: 모델 훈련을 위해 Common Crawl에서 수학적 내용을 필터링하여 고품질의 데이터로 구성된 120B 수학 토큰을 포함하는 DeepSeekMath Corpus를 생성합니다. 이 데이터셋은 수학적 개념과 문제를 포함하며, 모델이 수학적 지식을 학습하는 데 중요한 역할을 합니다.
  2. 모델 초기화 및 튜닝: DeepSeekMath-Base 모델을 초기화한 후, 수학적 지시사항에 맞게 튜닝하여 DeepSeekMath-Instruct 모델을 개발합니다. 이 과정에서 모델은 다양한 수학 문제를 해결하는 능력을 갖추게 되며, 특히 문제 해결 과정에서 필요한 논리적 사고와 절차적 단계를 이해하도록 튜닝됩니다.
  3. 강화학습 최적화: GRPO (Group Relative Policy Optimization) 알고리즘을 적용하여 모델의 수학적 능력을 최적화합니다. GRPO는 기존의 Proximal Policy Optimization (PPO)을 개선한 것으로, 값(value) 모델 없이 여러 출력 샘플의 평균 보상을 바탕으로 학습을 진행합니다. 이는 강화학습 단계에서 자원을 절약하고, 모델의 학습 과정을 보다 효율적으로 만듭니다.

서론

최근 대규모 언어모델(LLM)은 AI의 수학적 인퍼런스 능력을 향상시켰습니다. 그러나 대부분의 고성능 모델들은 공개되지 않고 있으며, 이용 가능한 모델들은 GPT-4나 Gemini-Ultra와 같은 최신 모델에 비해 성능이 떨어집니다. 이 연구에서는 DeepSeekMath라는 새로운 도메인 특화 언어 모델을 소개합니다. 이 모델은 공개 모델과 비교하여 우수한 수학적 능력을 보여주며, 다양한 언어에서도 향상된 성능을 제공합니다.

  • 문제 정의: 최신 LLM의 수학 능력은 주로 비공개 모델에서만 발견되며, 현재 사용 가능한 공개 모델은 이런 최신 모델의 성능을 따라가지 못하므로, 고품질의 수학 데이터셋을 기반으로 한 새로운 모델 개발이 필요합니다.
  • 데이터셋 구축: Common Crawl에서 수학적 내용을 필터링하여 고품질의 데이터 120B 수학 토큰으로 구성된 DeepSeekMath Corpus를 생성합니다.
  • 모델 트레이닝: DeepSeekMath-Base 모델을 초기화하고, 수학적 지시사항 튜닝을 통해 DeepSeekMath-Instruct 모델을 개발하고, GRPO라는 새로운 강화학습 알고리즘을 통해 모델의 성능을 향상시켰습니다.


방법

데이터셋 사용 및 평가 방법 DeepSeekMath는 GSM8K 및 MATH 데이터셋에서 각각 64.2% 및 36.2%의 정확도를 달성하여 Minerva 540B 모델을 상회하였고, 중국어 수학 벤치마크에서도 개선된 성능을 보여줍니다.

강화학습 최적화 GRPO는 기존의 PPO 알고리즘을 개선하여 비평가 모델 없이 그룹 점수를 기반으로 베이스 라인을 추정함으로써 훈련 자원을 줄였습니다. 이를 통해 강화학습 단계에서 DeepSeekMath-Instruct 모델의 성능을 향상시켰습니다.

주요 수학적 방법 및 수식

GRPO 알고리즘의 수학적 기초 GRPO의 목표 함수는 다음과 같이 정의됩니다.

\[J_{GRPO}( ext) = \mathbb{E}\left[\sum_{t=1}^{T} \min \left(\text{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} A_t, \text{clip}\left(\text{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}, 1-\epsilon, 1+\epsilon\right) A_t\right)\right]\]

상기 식에서 $\pi_\theta$는 현재 정책, $\pi_{\theta_{old}}$는 이전 정책, $A_t$는 시간 $t$에서의 어드밴티지 함수

수학적 인퍼런스 향상을 위한 튜닝 DeepSeekMath-Instruct는 다음과 같이 chain-of-thought 방식으로 튜닝되었습니다.

\[\text{Accuracy Improvement} = \frac{\text{Number of Correct Predictions}}{\text{Total Predictions}}\]

이는 각각의 예측이 얼마나 정확한지를 평가하여 모델의 수학적 능력을 측정합니다.

Group Relative Policy Optimization (GRPO)의 수학적 기반 및 방법 설명

GRPO는 Proximal Policy Optimization (PPO)의 변형으로, 기존의 강화학습 기법들이 갖는 몇 가지 한계를 극복하기 위해 개발된 알고리즘입니다.


1. 배경: Proximal Policy Optimization (PPO)

PPO는 강화학습에서 널리 사용되는 알고리즘으로, 정책(policy) 모델의 업데이트를 안정적으로 수행하기 위해 설계되었습니다. 기본적인 목표는 다음과 같은 목적함수를 최대화하는 것입니다.

PPO는 강화 학습에서 사용하는 정책 최적화 알고리즘입니다. 이 알고리즘은 정책을 업데이트할 때 큰 변화가 발생하지 않도록 제어하면서 성능을 최적화합니다.

PPO 목적함수 정의 PPO 목적함수는 다음과 같습니다

\[J_{PPO}( ext) = \mathbb{E}\left[\sum_{t=1}^{T} \min \left(\text{\pi_\theta(a_t\\|s_t)}{\pi_{\theta_{old}}(a_t\\|s_t)} A_t, \text{clip}\left(\text{\pi_\theta(a_t\\|s_t)}{\pi_{\theta_{old}}(a_t\\|s_t)}, 1-\epsilon, 1+\epsilon\right) A_t\right)\right]\]

$\pi_\theta(a_t|s_t)$와 $\pi_{\theta_{old}}(a_t|s_t)$의 정의

  • $\pi_\theta(a_t|s_t)$: 현재 정책 $\pi_\theta$가 상태 $s_t$에서 행동 $a_t$를 선택할 확률
  • $\pi_{\theta_{old}}(a_t|s_t)$: 이전 정책 $\pi_{\theta_{old}}$가 상태 $s_t$에서 행동 $a_t$를 선택할 확률

어드밴티지 함수 $A_t$

  • $A_t$: 시간 $t$에서의 어드밴티지 함수, 이는 특정 행동이 평균보다 얼마나 좋은지를 나타내는 값입니다. 이를 통해 정책이 얼마나 잘 수행되고 있는지 평가합니다.

확률비

\[\frac{\pi_\theta(a_t\\|s_t)}{\pi_{\theta_{old}}(a_t\\|s_t)}\]

이 비율은 현재 정책이 특정 행동을 선택할 확률과 이전 정책이 동일한 행동을 선택할 확률의 비율입니다. 이는 새로운 정책이 얼마나 이전 정책과 다른지를 나타냅니다.

클리핑 함수 $\text{clip}$

\[\text{clip}(x, 1-\epsilon, 1+\epsilon)\]

값 $x$를 $1-\epsilon$과 $1+\epsilon$ 사이로 제한합니다. 이는 업데이트가 너무 크지 않도록 제어하는 역할을 합니다.

  • PPO 목적함수의 구성 요소 설명 PPO 목적함수는 다음 두 가지 값 중 작은 값을 취합니다

    • 확률비와 어드밴티지의 곱: 이 항은 새로운 정책의 업데이트 방향을 제시합니다.
    \[\frac{\pi_\theta(a_t\\|s_t)}{\pi_{\theta_{old}}(a_t\\|s_t)} A_t\]
    • 클리핑된 확률비와 어드밴티지의 곱: 이 항은 확률비가 $1-\epsilon$과 $1+\epsilon$ 사이에 있도록 제한하여 너무 큰 업데이트를 방지합니다.
    \[\text{clip}\left(\text{\pi_\theta(a_t\\|s_t)}{\pi_{\theta_{old}}(a_t\\|s_t)}, 1-\epsilon, 1+\epsilon\right) A_t\]

수식의 의미 및 작동 원리

  1. 확률비와 어드밴티지의 곱: 이 항은 새로운 정책이 이전 정책에 비해 얼마나 더 나은지를 평가합니다. 확률비가 1보다 크면(즉, 새로운 정책이 행동을 더 자주 선택하면) 어드밴티지가 양수일 때 큰 값이 됩니다. 반대로 확률비가 1보다 작으면(즉, 새로운 정책이 행동을 덜 자주 선택하면) 어드밴티지가 음수일 때 큰 값이 됩니다.

  2. 클리핑된 확률비와 어드밴티지의 곱: 이 항은 업데이트가 너무 크지 않도록 제한합니다. 클리핑을 통해 확률비가 $1-\epsilon$과 $1+\epsilon$ 사이에 있을 때만 업데이트가 적용되며, 그렇지 않으면 어드밴티지가 제한된 값으로 곱해집니다. 이를 통해 정책 업데이트가 안정적이고 작은 범위 내에서 이루어지도록 합니다.

PPO 목적함수는 정책 업데이트가 큰 변화 없이 점진적으로 이루어지도록 제어해 학습이 안정적으로 진행될 수 있도록 도우며, 과도한 정책 변경으로 인한 불안정성을 방지하는 데 기여합니다.


2. GRPO의 도입

PPO에서 사용하는 값(value) 함수의 필요성을 없애고, 여러 출력 샘플을 기반으로 평균 보상을 계산함으로써 학습 과정을 단순화시키는 것이 GRPO의 핵심 아이디어입니다. 즉, GRPO는 Proximal Policy Optimization (PPO)의 변형으로, 값(value) 함수의 필요 없이 여러 출력 샘플의 평균 보상을 바탕으로 학습을 수행합니다.

이로 인해, 추가적인 값 모델을 훈련할 필요 없이, 더 적은 계산 자원으로 강화학습을 수행할 수 있습니다.


3. GRPO의 수학적 정의

GRPO에서는 각각의 행동 $a_t$의 보상을 그룹 내 다른 행동들의 보상과 비교하여 정규화합니다. 이를 통해 개별 행동이 그룹 내에서 얼마나 좋은지를 평가할 수 있습니다. 목적함수는 다음과 같이 정의됩니다.

\[J_{GRPO}( ext) = \mathbb{E}_{\substack{q \sim P(Q), \\ \{a^i\} \sim \pi_{\theta_{old}}(A\\|q)}} \left[\sum_{t=1}^{T} \sum_{i=1}^G \min \left(\text{\pi_\theta(a^i_t\\|q, a^i_{<t})}{\pi_{\theta_{old}}(a^i_t\\|q, a^i_{<t})} \hat{A}^i_t, \text{clip}\left(\text{\pi_\theta(a^i_t\\|q, a^i_{<t})}{\pi_{\theta_{old}}(a^i_t\\|q, a^i_{<t}), 1-\epsilon, 1+\epsilon}\right) \hat{A}^i_t\right)\right]\]
  • $\pi_\theta(a^i_t|q, a^i_{<t})$는 현재 정책 하에서 행동 $a^i_t$를 선택할 확률입니다.
  • $\pi_{\theta_{old}}(a^i_t|q, a^i_{<t})$는 이전 정책 하에서 동일한 행동을 선택할 확률입니다.
  • $\hat{A}^i_t$는 정규화된 어드밴티지 추정치로, 특정 행동이 그룹 평균보다 얼마나 나은지를 나타냅니다.
  • $\text{clip}$ 함수는 비율이 $1-\epsilon$과 $1+\epsilon$ 사이에 있도록 제한하여 정책 업데이트 시 너무 큰 변화가 일어나지 않도록 합니다.

상기 식에서 $\hat{A}^i_t$는 정규화된 어드밴티지 추정치로, 개별 출력들의 보상을 그룹 평균과 비교하여 계산됩니다.


4. GRPO의 장점

  • 계산 효율성: 값 모델을 필요로 하지 않아 계산 비용이 낮습니다.
  • 안정성: 여러 출력의 평균을 사용하기 때문에, 개별 샘플의 이상치가 전체 학습에 미치는 영향을 줄일 수 있습니다.
  • 확장성: 다양한 크기의 문제와 다양한 설정에서 적용 가능합니다.

이렇게 GRPO는 강화학습의 기존 방법을 개선하여, 더욱 효과적이고 효율적인 모델 업데이트가 가능하다고 언급합니다.


5. 결론 및 향후 연구 방향

DeepSeekMath 모델은 공개 모델들보다 월등한 수학적 능력을 보여주며, 향후 연구에서는 이 모델을 기반으로 더 다양한 언어 및 문제에 대한 적용을 탐구할 예정이라고 합니다.

Previous: Augumentation | Finding and Fixing Model Weaknesses Next: Evaluation | Replacing Judges

post contain ""

    No matching posts found containing ""