[서론]
최근 대규모 언어모델들은 다양한 자연어 처리 작업에서 인상적인 성과를 보여주고 있으나, 복잡한 인퍼런스 작업에서는 한계를 보인다. 이를 해결하기 위해, 모델에 ‘단계별로 생각해보자(Let’s think step by step)’라는 프롬프트를 제공하여 인퍼런스 과정을 유도하는 방식이 제안되었지만, 이는 큰 모델에서만 유효하고, 때때로 낮은 품질의 인퍼런스를 생성하는 문제가 있습니다.
[관련 연구]
[방법]
1. 지식 증류
2. 인퍼런스 개선
인퍼런스 품질 측정: 인퍼런스의 사실성, 관련성, 논리성 등 8가지 언어적 측면을 평가합니다. (\(n\)은 평가 항목의 수, \(\text{score}_i\)는 각 항목의 평가 점수)
\[R_{\text{aspect}} = \frac{1}{n} \sum_{i=1}^n \text{score}_i\]강화 학습을 통한 인퍼런스 정제: 평가 점수를 보상 신호로 사용하여 소규모 모델을 최적화합니다. (\(R_{\text{taskAcc}}\)는 작업 정확도에 대한 보상)
\[R_{\text{final}} = R_{\text{aspect}} + R_{\text{taskAcc}}\][실험 및 결과]
[결론]
소규모 모델과 대규모 모델을 결합한 지식 증류와 강화 학습을 통해 언어 모델의 인퍼런스 능력을 효과적으로 향상시킬 수 있음을 보여줍니다.