00:00:00

Share Your Feedback 🏝️

CoT | LM Guided CoT

CoT | LM Guided CoT

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Chat Vector Next: Augumentation | LM Synthentic Data

CoT | LM Guided CoT

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-04-20

Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought

  • url: https://arxiv.org/abs/2404.03414
  • pdf: https://arxiv.org/pdf/2404.03414
  • html: https://arxiv.org/html/2404.03414v1
  • abstract: We introduce a novel framework, LM-Guided CoT, that leverages a lightweight (i.e., <1B) language model (LM) for guiding a black-box large (i.e., >10B) LM in reasoning tasks. Specifically, the lightweight LM first generates a rationale for each input instance. The Frozen large LM is then prompted to predict a task output based on the rationale generated by the lightweight LM. Our approach is resource-efficient in the sense that it only requires training the lightweight LM. We optimize the model through 1) knowledge distillation and 2) reinforcement learning from rationale-oriented and task-oriented reward signals. We assess our method with multi-hop extractive question answering (QA) benchmarks, HotpotQA, and 2WikiMultiHopQA. Experimental results show that our approach outperforms all baselines regarding answer prediction accuracy. We also find that reinforcement learning helps the model to produce higher-quality rationales with improved QA performance.
  • keywords: Chain-of-Thought Prompting, Large Language Model, Reinforcement Learning, Knowledge Distillation.

TL;DR


  1. 대규모 언어모델(LLMs)의 인퍼런스 능력 향상을 위한 새로운 방법 제안
  2. 소규모 모델과 대규모 모델을 결합한 지식 증류 및 강화 학습을 활용한 인퍼런스 프로세스 최적화
  3. 제안된 방법이 기존 대화형 인퍼런스 방식보다 우수한 성능을 보임

[서론]

최근 대규모 언어모델들은 다양한 자연어 처리 작업에서 인상적인 성과를 보여주고 있으나, 복잡한 인퍼런스 작업에서는 한계를 보인다. 이를 해결하기 위해, 모델에 ‘단계별로 생각해보자(Let’s think step by step)’라는 프롬프트를 제공하여 인퍼런스 과정을 유도하는 방식이 제안되었지만, 이는 큰 모델에서만 유효하고, 때때로 낮은 품질의 인퍼런스를 생성하는 문제가 있습니다.

[관련 연구]

  • 지식 증류(Knowledge Distillation): 소규모 모델이 대규모 모델로부터 인퍼런스 능력을 학습합니다. 이는 모델의 계산 효율성을 높이고 작업 성능을 개선하는 것을 목표로 합니다.
  • 인퍼런스 개선(Rationale Refinement): 인퍼런스 과정에서 발생하는 오류를 수정하고, 인퍼런스의 질을 평가하는 노력이 진행 중이다. 강화 학습을 통해 인퍼런스의 품질을 개선하는 방법이 연구되고 있습니다.

[방법]

1. 지식 증류

  • 인퍼런스 생성: 대규모 모델에서 생성된 인퍼런스를 기반으로 소규모 모델을 훈련합니다.
  • 인퍼런스 필터링 및 훈련: 부정확한 예측을 걸러내고, 정제된 데이터를 사용하여 소규모 모델을 훈련하였습니다.

2. 인퍼런스 개선

  • 인퍼런스 품질 측정: 인퍼런스의 사실성, 관련성, 논리성 등 8가지 언어적 측면을 평가합니다. (\(n\)은 평가 항목의 수, \(\text{score}_i\)는 각 항목의 평가 점수)

    \[R_{\text{aspect}} = \frac{1}{n} \sum_{i=1}^n \text{score}_i\]
  • 강화 학습을 통한 인퍼런스 정제: 평가 점수를 보상 신호로 사용하여 소규모 모델을 최적화합니다. (\(R_{\text{taskAcc}}\)는 작업 정확도에 대한 보상)

    \[R_{\text{final}} = R_{\text{aspect}} + R_{\text{taskAcc}}\]

[실험 및 결과]

  • 데이터셋: HotpotQA 및 2WikiMultiHopQA를 사용하여 모델을 평가합니다.
  • 성능 평가: 제안된 방법이 기존 방식보다 우수한 결과를 보여주며, 특히 인퍼런스의 질과 작업 수행 능력이 모두 향상됨을 확인합니다.

[결론]

소규모 모델과 대규모 모델을 결합한 지식 증류와 강화 학습을 통해 언어 모델의 인퍼런스 능력을 효과적으로 향상시킬 수 있음을 보여줍니다.

Previous: Chat Vector Next: Augumentation | LM Synthentic Data

post contain ""

    No matching posts found containing ""