Contents
1. 서론
인공 일반 지능(AGI)의 발전에 따라 휴먼의 인지 능력을 초월하는 모델을 개발하는 것은 필드 내의 주요 목표입니다. 이런 슈퍼인텔리전트 시스템의 개발은 AI 모델들을 위한 감독 및 학습 패러다임과 관련하여 많은 과제를 남겼습니다. 전통적인 학습 방법들은 이런 AI의 능력이 superviser의 능력을 초월함에 따라 부족해지게 되었습니다. 이 문제를 해결하기 위해, weak 모델만을 사용하고 strong 모델이 완전히 활용되지 않은 상태에서 수행할 수 있는 weak-to-strong 학습 패러다임을 탐구합니다.
이 연구에서는 “Weak 모델이 Strong 모델을 얼마나 효과적으로 지도할 수 있는가?”를 중심으로 복잡한 인퍼런스 과제에 적용할 weak-to-strong 학습 프레임워크의 가능성을 탐구합니다.
예비 연구들은 분류, 체스, 보상 모델링 과제에서 이 방법의 가능성을 입증했으나, 복잡한 인퍼런스 과제에서는 아직 밝혀지지 않았습니다. 인퍼런스은 휴먼의 인지 능력 중 중요한 측면을 대표하며, LLM이 세계를 이해하고 문제를 해결하는 데 있어 휴먼과 같은 능력을 모방하거나 초월할 수 있는지 평가하는 데 중요합니다.
2. 예비 사항
2.1 대규모 언어모델(LLM)의 전형적 학습 패러다임
[일반적인 LLM 학습 과정 색인마킹]
2.2 weak-to-strong Reasoning Setup
이 섹션에서는 weak-to-strong reasoning에서의 인퍼런스 태스크를 다룹니다.
인퍼런스 과제는 기본적인 수학 문제의 해결을 요구하며, 각 단계는 이전 단계로부터 구축됩니다. 이런 과제는 단순 추측이 아닌 더 어려운 사고가 필요하므로, 모델의 학습 및 일반화 능력에 더 높은 기술을 요합니다.
먼저 weak 모델(Llama2-7b)을 사용해 strong 모델(Llama2-70b)의 인퍼런스 능력을 향상시키는 방법을 구현합니다. 즉, weak 모델을 이용하여 일부 문제 해결 능력을 갖도록 파인튜닝하고, strong 모델은 정답이나 인퍼런스 체인 없이 문제에만 접근할 수 있도록 구성합니다.
초기 단계에서는 실제 정답이 없을 경우에서의 잠재적으로 긍정적인 샘플(적절한 response를 반환한 샘플)을 식별합니다.
전체 프레임워크는 다음과 같습니다.
3. 실험 및 방법
먼저 작은 양의 정확한 데이터를 사용하여 모델의 능력을 향상시키는 것이 유리하다는 가설을 설정합니다. 이를 위해, weak 모델에서 생성된 데이터와 strong 모델이 상황에 맞게 자체 생성한 데이터를 결합하여 선택적으로 데이터셋을 큐레이션하고 파인튜닝에 사용합니다.
두 번째 단계에서는 strong 모델의 개선된 인퍼런스 능력을 활용하여 선호도 최적화를 통해 학습을 진행합니다. 이 방법은 strong 모델이 weak 감독자의 오류에서 학습할 수 있게 하며, 금지 된 데이터셋과 같은 까다로운 시나리오에서 strong 모델의 기준보다 높은 성능을 달성할 수 있도록 합니다.
3.1 단계 I: “긍정적” 샘플에서 학습하기
weak 모델 \(m\)과 정답이 없는 수학 문제의 시리즈 \(\mathcal{Q}\)를 주어진 상태에서, \(m\)은 weak data \(\mathcal{D}_{\text{weak}} = \{q_i, c_{\text{weak}, i}, a_{\text{weak}, i}\}\) 를 생성합니다. \(q_i \in \mathcal{Q}\), \(c_{\text{weak}, i}\)는 인퍼런스 과정을 나타내며, \(a_{\text{weak}, i}\)는 최종 답을 나타냅니다. \(a_{\text{weak}, i}\)의 정확성은 알려져 있지 않습니다.
이 부분에서 중요한 챌린지는 “어떻게 \(m\)과 \(\mathcal{D}_{\text{weak}}\)을 최대한 활용하여 강력한 모델 \(\mathcal{M}\)의 수학적 인퍼런스 능력을 완전히 향상시키고 회복할 수 있을지”입니다.
이 단계에서는 weak data를 활용하여 강력한 모델 \(\mathcal{M}\)의 수학적 인퍼런스 능력을 키우는 방법에 집중합니다. 각 \(a_{\text{weak}, i}\)의 정확성이 불확실함에도 불구하고, 이 데이터를 통해 \(\mathcal{M}\)이 더 나은 인퍼런스 패턴을 학습할 수 있도록 지도하는 전략이 필요합니다. 이는 부분적으로 정답을 포함할 수도 있는 $\mathcal{D}_{\text{weak}}$의 정보를 최대한 활용하는 것을 의미합니다.
3.1.1 Weak data 전체로 파인튜닝
초기 전략은 strong 모델 $\mathcal{M}$을 weak dataset $\mathcal{D}_{\text{weak}}$ 전체에 걸쳐 파인튜닝하는 것입니다. 이전 연구(Burns 등, 2023)에서 이 접근 방식의 효과가 텍스트 분류 작업에서 검증되었으나, 인퍼런스 작업에서의 효과는 아직 탐색되지 않았습니다. 따라서, weak-to-strong 일반화 현상이 인퍼런스 능력을 향상시킬 수 있는지 여부를 조사하고 있습니다.
3.1.2 Weak In-Context Learning(이하 “ICL”)
또 다른 직관적인 접근 방식은 In-Context Learning(ICL, Dong 등, 2023b)입니다. 이 방법은 프롬프트에 몇 가지 훈련 샘플만을 데모로 요구합니다. 구체적으로는, $\mathcal{D}_{\text{weak}}$에서 무작위로 4개의 샘플을 데모로 선택하는데, 실제 정답에 접근할 수 없기 때문에 이 데모들이 증명이 가능할 정도로 정확한 지는 알 수 없습니다.
3.1.3 Weak-ICL 파인튜닝
모델이 Supervised learning을 통해 weak 오류를 모방할 수 있다는 연구(Charikar et al., 2024; Lang et al., 2024)에 기초하여, 모든 데이터를 맹목적으로 사용하는 대신 사용 전에 weak data \(\mathcal{D}_{\text{weak}}\)을 정제하는 것을 제안합니다. 또한, 인-컨텍스트 학습을 통해 활성화된 강력한 모델의 내재된 능력을 활용하고자 합니다. 이 두 가지 아이디어에 기반하여, weak data \(\mathcal{D}_{\text{weak}}\)와 “ICL data”
\[\mathcal{D}_{\text{ICL}} = \{q_i, c_{\text{ICL}, i}, a_{\text{ICL}, i}\}\]를 사용하여 파인튜닝하는 Weak-ICL 파인튜닝을 도입합니다. \(q_i \in \mathcal{Q}\), \(c_{\text{ICL}, i}\) 및 \(a_{\text{ICL}, i}\)는 \(\mathcal{M}\)이 몇 번의 데모를 통해 생성한 것입니다.
[수학적 배경과 논리성]
Weak data \(\mathcal{D}_{\text{weak}}\)와 ICL data \(\mathcal{D}_{\text{ICL}}\) 모두에서 정확한 답변 여부를 결정할 수 없으나, 두 모델이 서로 다른 data 표현을 사용하면서 동일한 답변에 수렴하는 경우, 이는 정확성의 높은 가능성을 시사합니다. 이 현상은 다양한 방법 간의 일관성이 관찰될 때 결과의 신뢰성을 뒷받침합니다. 따라서 weak 모델과 강력한 모델이 각각 생성한 \(\mathcal{D}_{\text{weak}}\)과 \(\mathcal{D}_{\text{ICL}}\)을 비교하고, \(a_{\text{weak}, i} = a_{\text{ICL}, i}\)인 경우, 이후 Supervised learning을 위해 \(\mathcal{D}^{\text{weak}}\)과 \(\mathcal{D}^{\text{ICL}}\)을 선택합니다. 이 접근 방법을 최종 답변 일관성이라고 합니다.
[강화된 파인튜닝 모델 버전]
두 데이터셋의 조합을 고려할 때, 다음과 같은 세 가지 강화된 파인튜닝된 강력한 모델 버전을 얻을 수 있습니다.
이 방법을 통해, 두 데이터 소스의 통합을 통한 학습은 모델의 성능을 최적화하고, 다양한 시나리오에서의 유연성과 정확성을 향상시킬 가능성이 있고, 각 단계에서의 세심한 데이터 검증과 선택은 모델이 신뢰할 수 있는 결과를 생성하는 데 기여할 수 있습니다.
3.2 단계 II: “부정적” 샘플에서 학습하기
1단계에서 얻은 \(\mathcal{M}_{\text{hybrid-ft}}\)를 \(\mathcal{M}_{\text{plus}}\)로 명명하고, 이 모델은 추가적인 강화 가능성을 지니며, dual mathematical solutions을 학습하고, 다음으로, 원본 weak dataset \(\mathcal{D}_{\text{weak}} = \{q_i, c_{\text{weak}, i}, a_{\text{weak}, i}\}\) 에서 발생할 수 있는 잠재적 오류를 전략적으로 활용하는 선호 최적화 테크닉을 적용합니다. 이 방법은 강화된 모델이 유사한 오류를 미래 인퍼런스 과정에서 식별하고 피할 수 있도록 합니다. 학습을 위한 대조적 샘플 구성이 핵심 요소입니다.
선행 연구: dual mathematical solutions을 학습한 강화된 모델 활용
Question \(q_i\)
Bob이 10명의 룸메이트가 있을 때, John은 Bob의 두 배보다 5명 더 많은 룸메이트를 갖고 있습니다. John은 몇 명의 룸메이트를 가지고 있습니까?
Weak Response \(\{c_{\text{weak}, i}, a_{\text{weak}, i}\}\)
John은 10+5=15명의 룸메이트를 가집니다. 답은 15입니다.
Strong Response 1 \(\{c_{\text{strong}, i1}, a_{\text{strong}, i1}\}\)
Bob은 10명의 룸메이트를 가집니다. Bob의 두 배는 2*10 = 20명입니다. John은 Bob의 두 배보다 5명 더 많으므로, John은 20+5 = 25명의 룸메이트를 가집니다. 답은 25입니다.
Strong Response 2 \(\{c_{\text{strong}, i2}, a_{\text{strong}, i2}\}\)
Bob이 가진 룸메이트 수를 x라고 하면, John은 Bob의 두 배보다 5명 더 많은 룸메이트를 가집니다. 즉, John은 2x+5명의 룸메이트를 가집니다. Bob이 10명의 룸메이트를 가지므로, x=10입니다. John은 2*10+5 = 25명의 룸메이트를 가집니다. 답은 25입니다.
[신뢰도와 대조 샘플]
[모델 강화]
이 단계에서 \(\mathcal{M}_{\text{plus}}\)는 이런 샘플을 학습하여 정확하고 부정확한 해결책을 구분할 수 있게 되며, 이를 통해 더 강력한 모델 \(\mathcal{M}_{\text{pro}}\)로 발전합니다. 이 과정은 모델이 실수를 인식하고 피하는 능력을 개선하며, 더 정확한 인퍼런스를 가능하게 합니다.
4. 실험 결과