Contents
[대규모 언어모델에서의 수학적 인퍼런스 능력 향상에 관한 연구]
[방법]
서론
최근 대규모 언어모델(LLM)은 AI의 수학적 인퍼런스 능력을 향상시켰습니다. 그러나 대부분의 고성능 모델들은 공개되지 않고 있으며, 이용 가능한 모델들은 GPT-4나 Gemini-Ultra와 같은 최신 모델에 비해 성능이 떨어집니다. 이 연구에서는 DeepSeekMath라는 새로운 도메인 특화 언어 모델을 소개합니다. 이 모델은 공개 모델과 비교하여 우수한 수학적 능력을 보여주며, 다양한 언어에서도 향상된 성능을 제공합니다.
방법
데이터셋 사용 및 평가 방법 DeepSeekMath는 GSM8K 및 MATH 데이터셋에서 각각 64.2% 및 36.2%의 정확도를 달성하여 Minerva 540B 모델을 상회하였고, 중국어 수학 벤치마크에서도 개선된 성능을 보여줍니다.
강화학습 최적화 GRPO는 기존의 PPO 알고리즘을 개선하여 비평가 모델 없이 그룹 점수를 기반으로 베이스 라인을 추정함으로써 훈련 자원을 줄였습니다. 이를 통해 강화학습 단계에서 DeepSeekMath-Instruct 모델의 성능을 향상시켰습니다.
주요 수학적 방법 및 수식
GRPO 알고리즘의 수학적 기초 GRPO의 목표 함수는 다음과 같이 정의됩니다.
\[J_{GRPO}( ext) = \mathbb{E}\left[\sum_{t=1}^{T} \min \left(\text{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} A_t, \text{clip}\left(\text{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}, 1-\epsilon, 1+\epsilon\right) A_t\right)\right]\]상기 식에서 $\pi_\theta$는 현재 정책, $\pi_{\theta_{old}}$는 이전 정책, $A_t$는 시간 $t$에서의 어드밴티지 함수
수학적 인퍼런스 향상을 위한 튜닝 DeepSeekMath-Instruct는 다음과 같이 chain-of-thought 방식으로 튜닝되었습니다.
\[\text{Accuracy Improvement} = \frac{\text{Number of Correct Predictions}}{\text{Total Predictions}}\]이는 각각의 예측이 얼마나 정확한지를 평가하여 모델의 수학적 능력을 측정합니다.
Group Relative Policy Optimization (GRPO)의 수학적 기반 및 방법 설명
GRPO는 Proximal Policy Optimization (PPO)의 변형으로, 기존의 강화학습 기법들이 갖는 몇 가지 한계를 극복하기 위해 개발된 알고리즘입니다.
1. 배경: Proximal Policy Optimization (PPO)
PPO는 강화학습에서 널리 사용되는 알고리즘으로, 정책(policy) 모델의 업데이트를 안정적으로 수행하기 위해 설계되었습니다. 기본적인 목표는 다음과 같은 목적함수를 최대화하는 것입니다.
PPO는 강화 학습에서 사용하는 정책 최적화 알고리즘입니다. 이 알고리즘은 정책을 업데이트할 때 큰 변화가 발생하지 않도록 제어하면서 성능을 최적화합니다.
PPO 목적함수 정의 PPO 목적함수는 다음과 같습니다
\[J_{PPO}( ext) = \mathbb{E}\left[\sum_{t=1}^{T} \min \left(\text{\pi_\theta(a_t\\|s_t)}{\pi_{\theta_{old}}(a_t\\|s_t)} A_t, \text{clip}\left(\text{\pi_\theta(a_t\\|s_t)}{\pi_{\theta_{old}}(a_t\\|s_t)}, 1-\epsilon, 1+\epsilon\right) A_t\right)\right]\]$\pi_\theta(a_t|s_t)$와 $\pi_{\theta_{old}}(a_t|s_t)$의 정의
어드밴티지 함수 $A_t$
확률비
\[\frac{\pi_\theta(a_t\\|s_t)}{\pi_{\theta_{old}}(a_t\\|s_t)}\]이 비율은 현재 정책이 특정 행동을 선택할 확률과 이전 정책이 동일한 행동을 선택할 확률의 비율입니다. 이는 새로운 정책이 얼마나 이전 정책과 다른지를 나타냅니다.
클리핑 함수 $\text{clip}$
\[\text{clip}(x, 1-\epsilon, 1+\epsilon)\]값 $x$를 $1-\epsilon$과 $1+\epsilon$ 사이로 제한합니다. 이는 업데이트가 너무 크지 않도록 제어하는 역할을 합니다.
PPO 목적함수의 구성 요소 설명 PPO 목적함수는 다음 두 가지 값 중 작은 값을 취합니다
수식의 의미 및 작동 원리
확률비와 어드밴티지의 곱: 이 항은 새로운 정책이 이전 정책에 비해 얼마나 더 나은지를 평가합니다. 확률비가 1보다 크면(즉, 새로운 정책이 행동을 더 자주 선택하면) 어드밴티지가 양수일 때 큰 값이 됩니다. 반대로 확률비가 1보다 작으면(즉, 새로운 정책이 행동을 덜 자주 선택하면) 어드밴티지가 음수일 때 큰 값이 됩니다.
클리핑된 확률비와 어드밴티지의 곱: 이 항은 업데이트가 너무 크지 않도록 제한합니다. 클리핑을 통해 확률비가 $1-\epsilon$과 $1+\epsilon$ 사이에 있을 때만 업데이트가 적용되며, 그렇지 않으면 어드밴티지가 제한된 값으로 곱해집니다. 이를 통해 정책 업데이트가 안정적이고 작은 범위 내에서 이루어지도록 합니다.
PPO 목적함수는 정책 업데이트가 큰 변화 없이 점진적으로 이루어지도록 제어해 학습이 안정적으로 진행될 수 있도록 도우며, 과도한 정책 변경으로 인한 불안정성을 방지하는 데 기여합니다.
2. GRPO의 도입
PPO에서 사용하는 값(value) 함수의 필요성을 없애고, 여러 출력 샘플을 기반으로 평균 보상을 계산함으로써 학습 과정을 단순화시키는 것이 GRPO의 핵심 아이디어입니다. 즉, GRPO는 Proximal Policy Optimization (PPO)의 변형으로, 값(value) 함수의 필요 없이 여러 출력 샘플의 평균 보상을 바탕으로 학습을 수행합니다.
이로 인해, 추가적인 값 모델을 훈련할 필요 없이, 더 적은 계산 자원으로 강화학습을 수행할 수 있습니다.
3. GRPO의 수학적 정의
GRPO에서는 각각의 행동 $a_t$의 보상을 그룹 내 다른 행동들의 보상과 비교하여 정규화합니다. 이를 통해 개별 행동이 그룹 내에서 얼마나 좋은지를 평가할 수 있습니다. 목적함수는 다음과 같이 정의됩니다.
\[J_{GRPO}( ext) = \mathbb{E}_{\substack{q \sim P(Q), \\ \{a^i\} \sim \pi_{\theta_{old}}(A\\|q)}} \left[\sum_{t=1}^{T} \sum_{i=1}^G \min \left(\text{\pi_\theta(a^i_t\\|q, a^i_{<t})}{\pi_{\theta_{old}}(a^i_t\\|q, a^i_{<t})} \hat{A}^i_t, \text{clip}\left(\text{\pi_\theta(a^i_t\\|q, a^i_{<t})}{\pi_{\theta_{old}}(a^i_t\\|q, a^i_{<t}), 1-\epsilon, 1+\epsilon}\right) \hat{A}^i_t\right)\right]\]상기 식에서 $\hat{A}^i_t$는 정규화된 어드밴티지 추정치로, 개별 출력들의 보상을 그룹 평균과 비교하여 계산됩니다.
4. GRPO의 장점
이렇게 GRPO는 강화학습의 기존 방법을 개선하여, 더욱 효과적이고 효율적인 모델 업데이트가 가능하다고 언급합니다.
5. 결론 및 향후 연구 방향
DeepSeekMath 모델은 공개 모델들보다 월등한 수학적 능력을 보여주며, 향후 연구에서는 이 모델을 기반으로 더 다양한 언어 및 문제에 대한 적용을 탐구할 예정이라고 합니다.