00:00:00

Share Your Feedback 🏝️

MUON

MUON

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: DION Next: Reward Models Know

MUON

  • Related Project: Private
  • Category: Paper Review
  • Date: 2025-04-12

Muon is Scalable for LLM Training

  • url: https://arxiv.org/abs/2504.05812
  • pdf: https://arxiv.org/pdf/2504.05812
  • html: https://arxiv.org/html/2504.05812v1
  • abstract: While large language models (LLMs) have demonstrated exceptional capabilities in challenging tasks such as mathematical reasoning, existing methods to enhance reasoning ability predominantly rely on supervised fine-tuning (SFT) followed by reinforcement learning (RL) on reasoning-specific data after pre-training. However, these approaches critically depend on external supervisions–such as human labelled reasoning traces, verified golden answers, or pre-trained reward models–which limits scalability and practical applicability. In this work, we propose Entropy Minimized Policy Optimization (EMPO), which makes an early attempt at fully unsupervised LLM reasoning incentivization. EMPO does not require any supervised information for incentivizing reasoning capabilities (i.e., neither verifiable reasoning traces, problems with golden answers, nor additional pre-trained reward models). By continuously minimizing the predictive entropy of LLMs on unlabeled user queries in a latent semantic space, EMPO enables purely self-supervised evolution of reasoning capabilities with strong flexibility and practicality. Our experiments demonstrate competitive performance of EMPO on both mathematical reasoning and free-form commonsense reasoning tasks. Specifically, without any supervised signals, EMPO boosts the accuracy of Qwen2.5-Math-7B Base from 30.7% to 48.1% on mathematical benchmarks and improves truthfulness accuracy of Qwen2.5-7B Instruct from 87.16% to 97.25% on TruthfulQA.

TL;DR

  1. Entropy Minimized Policy Optimization (EMPO)는 외부의 레이블이나 사전학습된 리워드 모델 없이, LLM(대형언어모델)의 추론 능력을 강화하기 위해 순수한 자가지도(fully unsupervised) 강화학습 기법을 제안합니다.
  2. EMPO는 모델이 생성하는 출력들의 의미(semantic) 분포의 엔트로피를 최소화함으로써, 일관되고 신뢰할 수 있는 추론 결과를 도출하도록 유도합니다.
  3. 실험 결과, 수학 문제와 자유 형식 상식 질문 모두에서 기존 감독 방식 기반 모델과 경쟁력 있는 성능을 달성하였습니다.

목차

  1. 배경 및 문제 인식
  2. 기존 접근법과 한계
  3. EMPO 개념 및 방법론
    3.1. 주요 아이디어: 자가지도 강화학습과 엔트로피 최소화
    3.2. 의미 기반 엔트로피(semantic entropy) 정의
    3.3. EMPO의 최적화 과정과 세부 전략
  4. 실험 및 평가
    4.1. 실험 설정과 데이터셋
    4.2. 수학 추론 및 상식 추론 성능 비교
    4.3. 학습 동태와 결과의 해석
  5. 논의 및 인사이트
    5.1. 모델 성능과 감독 기반 기법과의 비교
    5.2. 리워드 해킹의 위험과 완화 전략
  6. 결론 및 미래 연구

1. 배경 및 문제 인식

  • 대형언어모델(LLM)의 추론 능력: 최근 LLM은 수학적 추론이나 코드 생성과 같은 복잡한 문제에 탁월한 능력을 보여주고 있으나, 기존 방법은 주로 감독학습(SFT)과 그 이후 강화학습(RL)을 결합하여 학습합니다.
  • 문제점: 외부의 레이블(인간이 라벨링한 추론 경로, 정답, 사전학습된 리워드 모델 등)에 의존하는 점은 데이터 수집 및 비용 측면에서 확장성에 한계를 나타냅니다.

2. 기존 접근법과 한계

  • 감독 기반 학습: 기존 연구들은 체인 오브 사고(Chain-of-Thought) 프롬프트, 자가일관성(self-consistency) 등 다양한 기법으로 pseudo-label을 생성해 지도 학습 및 강화학습을 수행했습니다.
  • 자체 리워드 및 RL 기법: 일부 연구는 모델 스스로 리워드 신호를 만들어내는 방식(예: LLM-as-a-Judge, 두 단계의 self-rewarding 프레임워크 등)을 사용했지만, 여전히 일정 수준의 외부 감독이나 테스트 케이스에 의존하였습니다.
  • 한계점: 이들 기법은 감독 신호에 의존하여 학습 파이프라인이 복잡하며, 인간 전문가의 개입이나 사전 라벨링이 필요해 확장성과 실용성에 문제점이 있음이 드러납니다.

3. EMPO 개념 및 방법론

3.1 주요 아이디어: 자가지도 강화학습과 엔트로피 최소화

  • 자가지도 강화학습 접근: EMPO는 외부 감독 없이, 오직 미라벨 데이터(사용자 쿼리)만을 사용하여 모델의 추론 능력을 강화하는 방식입니다.
  • 엔트로피 최소화: 출력들이 나타내는 의미적 분포의 불확실성을 줄임으로써, 모델이 일관된 답변을 생성하도록 유도합니다.

3.2 의미 기반 엔트로피(semantic entropy) 정의

  • 출력 그룹 샘플링: 주어진 쿼리에 대해 모델은 여러 출력을 생성합니다.
  • 의미 클러스터 구성: 생성된 출력들은 의미적 유사성(예: bidirectional entailment)에 따라 클러스터로 그룹화됩니다. 이 클러스터링은 N-gram, 정규표현식, 또는 BERT와 유사한 소형 모델을 활용해 효율적으로 수행할 수 있습니다.
  • 엔트로피 계산: 각 클러스터의 확률은 해당 클러스터에 속하는 출력의 비율로 근사되며, 이를 바탕으로 셰넌 엔트로피와 유사하게 의미 분포의 불확실성을 계산합니다.
  • 의의: 낮은 의미적 엔트로피는 모델의 출력이 일관되고 신뢰할 만함을 시사하며, 모델 정확도와 부정적 상관관계를 가지는 것으로 분석됩니다.

3.3 EMPO의 최적화 과정과 세부 전략

  • 목표 함수: EMPO는 모델의 정책 \(\pi_\theta\)를 강화학습 프레임워크 내에서 최적화하며, 의미 클러스터의 확률을 리워드(reward)으로 사용합니다.
    • 리워드 \(r_i\)는 출력 \(o_i\)가 속한 의미 클러스터의 확률로 주어집니다.
    • 모델은 동일한 질문에 대해 여러 출력을 샘플링하고, 클러스터별로 확률 분포를 구성하여 엔트로피를 최소화하는 방향으로 학습됩니다.
  • 안정화 전략:
    • 엔트로피 임계치 (thresholding): 너무 높은 혹은 낮은 엔트로피를 보이는 출력에 대해서는 학습을 제한하여 reward hacking(리워드 신호를 과도하게 탐색하는 문제)을 방지합니다.
    • KL 페널티: 모델이 참조 모델 \(\pi_{\text{ref}}\)와 지나치게 벗어나지 않도록 KL 다이버전스 제약을 적용합니다.
  • 최종 최적화 목표: 다양한 사용자 쿼리에 대해 샘플링된 출력의 정규화된 리워드(advantage)을 최대화하는 방식으로, 의미적 일관성(낮은 엔트로피)을 달성합니다.

4. 실험 및 평가

4.1 실험 설정과 데이터셋

  • 훈련 데이터
    • 수학 추론: NuminaMath-CoT 데이터셋에서 20,000개의 프롬프트 사용.
    • 자유 형식 상식 질문: TrivialQA 및 TruthfulQA 데이터셋에서 각각 일부 샘플 사용.
  • 비교 대상 모델
    • 감독 학습(SFT), GRPO, 온라인 DPO 등과 비교.
    • Qwen2.5 계열 모델(예: Qwen2.5-Math, Qwen2.5-Instruct)로 실험.

4.2 수학 추론 및 상식 추론 성능 비교

  • 수학 문제 성능
    • EMPO는 감독 신호 없이 Qwen2.5-Math Base 모델의 성능을 1.5B와 7B 버전에서 각각 약 28.1%에서 42.1%, 30.7%에서 48.1%로 개선.
    • 이는 감독 기반의 Qwen2.5-Math-Instruct 모델과 유사한 성능을 보입니다.
  • 상식 추론
    • TruthfulQA와 TrivialQA에서 Qwen2.5-Instruct 모델에 EMPO를 적용함으로써, 진실성 및 정확도 지표가 크게 향상됨.
    • 예를 들어, TruthfulQA에서 7B 모델의 진실성 정확도는 87.16%에서 97.25%로 개선됨.

4.3 학습 동태와 결과의 해석

  • 학습 과정 시각화
    • EMPO를 적용하면서 의미적 엔트로피가 점차 감소하고, 이는 모델의 출력 일관성과 실제 정답률이 증가하는 과정과 강한 상관관계를 보임.
  • 안정성
    • 모델은 불안정한 출력(높은 엔트로피 혹은 편향된 낮은 엔트로피)을 필터링하며, 전반적으로 안정적 학습을 진행함.

5. 논의 및 인사이트

5.1 모델 성능과 감독 기반 기법과의 비교

  • 경쟁력
    • EMPO는 외부의 감독 신호 없이도 GRPO, Online-DPO와 같은 감독 기법에 버금가는 성능을 보여줍니다.
    • 이는 대규모 레이블링 없이도 LLM의 내재된 역량(Pretraining이 이미 제공한 능력)을 잘 활용할 수 있음을 시사합니다.
  • 내재적 능력 강조
    • “Pretraining does all the hard work”라는 해석에 맞게, 파인튜닝은 스타일 전환에 불과하고, 기본 역량은 사전학습에 내재되어 있음.

5.2 리워드 해킹의 위험과 완화 전략

  • 리워드 해킹 문제
    • 모델이 자가 리워드 신호(즉, 의미 클러스터 확률)를 과도하게 최적화하여 단순히 가장 빈번한 답변에 집중할 위험이 존재.
  • 해결책
    • 엔트로피 임계치 적용: 너무 낮거나 높은 엔트로피의 출력은 학습에서 배제하여, 다양성과 올바른 추론 과정을 유지.
    • KL 제약 도입: 참조 모델과의 차이를 일정 수준 내로 유지하여, 과도한 편향(Reward Hacking) 문제를 줄임.

6. 결론 및 미래 연구

  • 주요 결론
    • EMPO는 외부 레이블 없이도 LLM의 추론 능력을 강화하는 데 효과적임을 증명.
    • 수학 및 자유 형식 상식 질문에 대해 감독 방식과 비슷한 성능을 달성하며, 자가지도 강화학습 기반의 가능성을 보여줌.
  • 미래 연구 방향
    • 코드 생성과 같이 의미적 동등성 평가가 어려운 분야로 EMPO의 일반화 가능성 탐색.
    • 다양한 LLM 계열(예: Llama family)과 더 많은 데이터셋을 활용한 성능 확장 및 불확실성 활용 방안 연구.
    • 보다 세밀한 unsupervised proxy objective 개발을 통해 리워드 해킹 문제를 더욱 효과적으로 해결할 수 있는 방법 모색.

결론

EMPO는 외부의 감독 신호 없이 LLM의 추론 능력을 효과적으로 강화하는 첫 시도로, 의미 기반 엔트로피 최소화를 통한 자체 강화학습 프레임워크를 제시합니다.

  • 핵심 장점: 레이블 없는 환경에서도 모델이 스스로 일관된, 신뢰할 수 있는 답변을 생성하도록 유도함
  • 실험적 성과: 수학 및 상식 문제에서 기존 감독 방식 대비 경쟁력 있는 성능 달성
  • 확장 가능성: 미래 연구에서 코드 생성 등 다양한 영역으로의 일반화와 더 나은 unsupervised 학습 기법의 개발 가능성 제시
Previous: DION Next: Reward Models Know

post contain ""

    No matching posts found containing ""