Contents
1. Introduction
LLM(Large Language Models)은 사용자 질문에 대한 지시 사항을 따르고 반응하는 능력이 현저하게 향상되고 있습니다. 이런 모델의 훈련 중 하나는 인스트럭션 튜닝으로, 휴먼이 만든 데이터셋에서 학습하는 것을 포함합니다. 그러나 이런 데이터의 획득은 비용과 시간이 많이 드는 작업입니다. 이에 대한 대응책으로, 자기 판단을 통한 AI의 자율적 개선이 가능한 ‘Meta-Reward’ 방법을 제안하였습니다. 이 방법은 모델이 Actor, Judge, 그리고 Meta Judge의 세 가지 역할을 수행하며, 각각의 반응, 평가, 그리고 그 평가의 평가를 자체적으로 수행합니다.
2. Meta-Reward
Meta-Reward 방법은 Actor, Judge, Meta Judge라는 세 가지 주요 역할을 하는 모델을 사용합니다. 이 방법은 주로 세 가지 단계로 구성됩니다.
2.1 Actor 선호 데이터셋 생성
Actor 역할을 하는 모델은 다음과 같이 주어진 프롬프트에 대해 반응을 생성합니다.
\[\text{for each prompt } x, \{y_1, \dots, y_K\} \text{ are generated by sampling from } M_t \text{ at iteration } t.\]생성된 각 반응 \(y_k\)에 대해 \(N\)개의 다른 판정을 생성하고, 각 판정의 점수를 평균하여 최종 보상 점수를 계산합니다. 이 점수를 기준으로, 길이 조절 메커니즘을 통해 선호하는 반응과 기각된 반응을 선택합니다.
2.2 Judge 선호 데이터셋 생성
Meta Judge는 주어진 두 판정 \(j_m\)과 \(j_n\)을 비교하여 더 나은 판정을 선택합니다. 이 비교는 다음의 프롬프트를 사용하여 이루어집니다.
비교 결과는 위치 편향을 고려하여 가중치를 적용한 배틀 매트릭스 \(B\)에 반영되며, 이 매트릭스는 각 판정의 Elo Score를 계산하는 데 사용됩니다. 다음 Elo Score는 판정의 품질을 나타내며, 최종적으로 선호하는 판정과 기각된 판정을 선택하는 데 사용됩니다.
\[\arg \max_{\epsilon_{m,n}} \sum B_{mn} \log \frac{e^{\epsilon_m - \epsilon_n}}{1 + e^{\epsilon_m - \epsilon_n}}.\]로그-오즈(log-odds) 형태의 함수를 사용하고 있으며, 특히 로지스틱 회귀 모델에서 로그-오즈비를 사용하는 것과 유사한 형태를 사용합니다.
3. 실험
3.1 실험 설정
초기 모델인 Llama-3-8B-Instruct을 사용하여 Yuan et al. (2024c)의 실험 설정을 따르며, 이 모델을 Evaluation Fine-Tuning (EFT) 데이터셋에서 Supervised learning(Supervised Fine-Tuning, SFT)을 수행합니다. 이 데이터셋은 Open Assistant(Köpf et al., 2024)로부터 구축되어 초기 LLM as a Judge 훈련 데이터로 사용되었습니다. 메타 보상(Meta-Rewarding) 학습 전, 이미 지시 사항에 따라 튜닝된 시드 모델에서 SFT를 수행하므로, Actor 역할로의 직접 훈련은 생략합니다. 메타 보상 반복 과정은 다음과 같이 정의됩니다.
\(\text{Iter 1: } M_1 =\) DPO로 SFT 모델을 사용하여 훈련
\(\text{Iter 2: } M_2 =\) DPO로 M1을 사용하여 훈련
\(\text{Iter 3: } M_3 =\) DPO로 M2를 사용하여 Actor 선호 쌍만 훈련
\(\text{Iter 4: } M_4 =\) DPO로 M3를 사용하여 Actor 선호 쌍만 훈련
각 반복에서는 프롬프트 당 7개의 반응 변형을 생성하고, 이들 중 동일한 반응을 제거하여 총 35,000개의 반응을 생성합니다.
3.2 평가 방법
메타 보상의 목적은 모델이 Actor와 Judge 역할에서 모두 개선되도록 하는 것입니다. GPT4 as a Judge를 기반으로 하는 자동 평가 벤치마크를 사용하여 이를 평가합니다. 평가는 AlpacaEval 2, Arena-Hard, MT-Bench와 같은 벤치마크에서 이루어집니다. 특히, AlpacaEval은 일상적인 질문을 다루는 반면, Arena-Hard는 더 복잡하거나 도전적인 질문을 다룹니다.
3.3 수행 지침 평가
메타 보상을 거친 반복 학습은 모델의 승률을 향상시킵니다. 각 반복 후 AlpacaEval 벤치마크에서의 승률을 측정하며, 초기 모델 대비 39.44%의 승률을 달성하여 상당한 향상을 보여줍니다.
3.4 보상 모델 평가
메타 보상을 통해 향상된 Judge 모델의 정확도를 평가하기 위해, 시드 모델이 생성한 반응에 대한 판단력을 측정하고, 이 측정은 현재 가장 강력한 GPT-4 모델을 Judge 모델로 사용하여 진행됩니다.
Meta-Reward 방법이 Actor의 반응 생성 능력과 Judge의 평가 능력을 향상시키는 데 효과적임을 확인하기 위한 실험 결과, Llama-3-8B-Instruct 모델을 사용하여 AlpacaEval 2 벤치마크에서 길이 제어 승률이 22.9%에서 39.4%로 향상되었습니다. 이는 표준 자기보상 훈련과 비교할 때 눈에 띄는 개선을 보여줍니다.
4 Related Works
4.1 RLHF
LLM과 휴먼 가치의 정렬을 위한 노력은 크게 두 가지 방향으로 분류됩니다. 보상 모델을 사용한 정렬과 직접 선호 데이터셋을 기반으로 한 정렬입니다. Ziegler et al. (2019), Stiennon et al. (2020), Ouyang et al. (2022), Bai et al. (2022a) 등은 휴먼 선호 데이터로부터 고정된 보상 모델을 훈련시킨 후, 이를 이용해 강화학습(RL)을 통한 훈련을 진행합니다. 이런 접근에서는 주로 Proximal Policy Optimization (PPO) (Schulman et al., 2017)가 사용됩니다. 반면, P3O (Wu et al., 2023)는 대조 정책 그래디언트를 도입하여 PPO보다 우수한 성능을 보이며 가치 함수의 필요성을 제거하였습니다. Direct Preference Optimization (DPO) (Rafailov et al., 2024)과 같은 방법은 보상 모델의 훈련을 전면적으로 피하며, 직접적으로 LLM을 휴먼의 선호를 이용해 훈련시킵니다.
4.2 LLM as a Judge
LLM을 평가자로 사용하는 것은 이제 표준적인 접근 방식으로 자리 잡았습니다(Li et al., 2024; Dubois et al., 2023; 2024b; Saha et al., 2023; Bai et al., 2024). 특히, Lee et al. (2023), Zhu et al. (2023), Chen et al. (2023), Li et al. (2023) 등은 보상 모델을 훈련시키는 데 LLM을 활용합니다. 또한 Kim et al. (2023; 2024)은 LLM-as-a-Judge 훈련 데이터셋을 구축하는 방법에 대해 연구하였습니다.
4.3 Super Alignment
매우 능력이 향상된 모델을 휴먼 수준을 넘어서 정렬하는 것을 슈퍼 정렬이라고 합니다. 현재 AI 정렬 방법은 주로 휴먼이 제공하는 데모나 강화학습(RLHF)에 의존하고 있지만, 휴먼이 전문성을 넘어서는 어려운 과제에 대해 유용한 데모나 감독을 제공할 수 없는 경우가 많습니다(Sharma et al., 2023). 슈퍼 정렬을 위한 몇 가지 유망한 방향은 모델을 이용한 휴먼 감독 지원, 문제 행동이나 내부를 자동으로 탐색하는 방법 등이 있습니다.
4.4 Self-Rewarding
Yuan et al. (2024c)의 연구는 연구와 가장 밀접하게 관련되어 있으며, 모델이 자체 반응을 평가하고 그 피드백을 선호 최적화에 사용하는 반복 훈련 체계를 제안합니다. 그러나 자체 개선을 위해 Actor와 Judge를 동시에 훈련시키는 작업에 집중한 연구는 많지 않습니다.
5 Limitation
실험 설정에서 선택한 5점 평가 체계는 응답 간 최소한의 품질 차이로 인해 자주 동점이 발생하여, 여러 평가의 평균을 신중하게 계산해야 한다고 언급합니다. 훈련이 진행됨에 따라 응답이 최대 점수에 접근하면서 추가 개선을 감지하기 어려워졌습니다. 보다 미묘한 평가 체계나 비교 기반 접근 방식이 이 문제를 해결할 수 있습니다. 또한 Judge 훈련 과정에서 위치 편향을 완화하기 위한 노력에도 불구하고, 이런 문제는 지속되어 3차 반복에서의 개선을 방해하였습니다. Judge는 높은 점수를 부여하는 경향이 있어 점수 포화를 촉진하고 응답 간 구별 능력을 저하시켰습니다. Judge가 자체 생성한 응답이 아닌 응답을 평가하는 데 있어서도 개선이 제한적이었습니다. 이런 문제들이 효과적으로 해결된다면, 접근 방식의 전반적인 효과성을 크게 향상시킬 수 있을 것입니다.
[품질 평가시 이슈 5점 척도 등 색인마킹]
6 Conclusion
이 연구에서는 Meta Judge가 Meta 보상을 부여하여 선호 최적화를 위해 선택된 판단과 거부된 판단을 선택하는 새로운 메커니즘을 제안합니다. 이는 자체 보상 프레임워크(Yuan et al., 2024c)의 주요 한계, 특히 Judge의 훈련 부족을 해결합니다. Meta 보상 훈련은 인공 지능 피드백으로 훈련할 때 길이 폭발 문제를 완화하는 새로운 길이 제어 기술을 도입합니다. 방법은 AlpacaEval, Arena-Hard, MT-Bench와 같은 자동 평가 벤치마크를 통해 효과성을 입증하였습니다.
휴먼의 추가 피드백 없이도, 접근 방식은 Llama-3-8B-Instruct를 상당히 개선하고, 강력한 기준인 SPPO(Wu et al., 2024)를 능가합니다. 또한, Judge 능력 평가에서 휴먼 Judge 및 강력한 AI Judge와의 상관 관계에서 상당한 개선을 보여주었으며, 전반적으로 휴먼의 피드백 없이 모델을 자체 개선하는 것이 슈퍼 정렬을 달성하기 위한 유망한 방향임을 보입니다.