00:00:00

Share Your Feedback 🏝️

Reasoning | Open AI | Learning to Reason

Reasoning | Open AI | Learning to Reason

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Data | Google | LLM Data using LLMs Next: Survey | LLM Recommendation

Reasoning | Open AI | Learning to Reason

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-09-12

Learning to Reason with LLMs by Open AI

  • url: https://openai.com/index/learning-to-reason-with-llms/?utm_source=substack&utm_medium=email
  • abstract: OpenAI o1 ranks in the 89th percentile on competitive programming questions (Codeforces), places among the top 500 students in the US in a qualifier for the USA Math Olympiad (AIME), and exceeds human PhD-level accuracy on a benchmark of physics, biology, and chemistry problems (GPQA). While the work needed to make this new model as easy to use as current models is still ongoing, we are releasing an early version of this model, OpenAI o1-preview, for immediate use in ChatGPT and to trusted API users(opens in a new window). Our large-scale reinforcement learning algorithm teaches the model how to think productively using its chain of thought in a highly data-efficient training process. We have found that the performance of o1 consistently improves with more reinforcement learning (train-time compute) and with more time spent thinking (test-time compute). The constraints on scaling this approach differ substantially from those of LLM pretraining, and we are continuing to investigate them.

TL;DR


  • 대규모 강화학습을 통한 사고 과정 개선
  • 수학, 코딩, 과학 분야에서의 성능 입증

1. OpenAI의 o1 모델 소개

OpenAI에서 개발한 o1 모델은 인공지능의 추론 능력을 향상시킨 모델로, 대규모 강화학습 알고리즘을 통해 사고 과정(chain of thought)을 효과적으로 활용하는 방식으로 학습되었습니다.

o1 모델의 주요 특징은 다음과 같습니다.

  • (1) 훈련 시간과 추론 시간에 따른 성능 향상
    • 모델의 성능은 강화학습 훈련 시간(train-time compute)과 추론 시 사고에 소요되는 시간(test-time compute)에 비례하여 지속적으로 향상됩니다.
  • (2) 기존 LLM 사전 학습과의 차이점
    • o1의 학습 방식은 기존 LLM의 사전 학습 방식과는 상당히 다른 제약 조건을 가지고 있으며, 이에 대한 연구가 계속 진행 중입니다.
  • (3) 다양한 분야에서의 뛰어난 성능
    • 수학, 코딩, 과학 등 추론이 필요한 다양한 분야에서 GPT-4를 크게 능가하는 성능을 보여주었습니다.


2. o1 모델의 평가 방법 및 결과

o1 모델의 성능을 평가하기 위해 다양한 휴먼 시험과 기계학습 벤치마크가 사용되었습니다.

2.1. 수학 능력 평가 (AIME)

AIME(American Invitational Mathematics Examination)는 미국 수학 올림피아드 예선으로, 고난도의 수학 문제를 해결하는 능력을 평가합니다.

o1 모델의 AIME 성적

  • 단일 샘플 정답률: 74% (11.1/15)
  • 64개 샘플 다수결 투표: 83% (12.5/15)
  • 1000개 샘플 재순위화: 93% (13.9/15)

다수결 투표 방식의 성능 향상은 다음과 같은 수학적 모델로 설명할 수 있습니다.

\[P(\text{correct}) = 1 - \sum_{i=0}^{\lfloor n/2 \rfloor} \binom{n}{i} p^i (1-p)^{n-i}\]
  • $n$: 샘플 수 (이 경우 64)
  • $p$: 단일 샘플의 정답 확률 (0.74)

이 식은 과반수 이상의 샘플이 정답을 선택할 확률을 나타내며, 이 방식을 통해 정답률이 74%에서 83%로 향상되었다고 보고합니다.

2.2. 과학 지식 평가 (GPQA Diamond)

GPQA Diamond는 화학, 물리학, 생물학 분야의 전문 지식을 평가하는 테스트입니다. o1 모델은 이 테스트에서 휴먼 전문가들의 성능을 뛰어넘었습니다.

과학 분야별 o1의 성능

  • 생물학: 69.2% (단일 샘플), 68.4% (64개 샘플 다수결)
  • 화학: 64.7% (단일 샘플), 65.6% (64개 샘플 다수결)
  • 물리학: 92.8% (단일 샘플), 94.2% (64개 샘플 다수결)


2.3. 코딩 능력 평가 (Codeforces)

Codeforces는 경쟁적 프로그래밍 플랫폼으로, 알고리즘 문제 해결 능력을 평가합니다. o1 모델은 이 플랫폼에서 시뮬레이션된 대회 결과, Elo 레이팅 1807점을 기록했습니다.

Elo 레이팅 시스템은 다음과 같은 수학적 모델을 기반으로 합니다.

\[E_A = \frac{1}{1 + 10^{(R_B - R_A) / 400}}\]
  • $E_A$: A 선수가 B 선수를 이길 예상 확률
  • $R_A$, $R_B$: 각 선수의 현재 레이팅

o1 모델의 Elo 레이팅 1807점은 휴먼 참가자들의 상위 93% 수준에 해당하는 우수한 성적입니다.


3. o1 모델의 사고 과정(Chain of Thought) 활용

o1 모델의 핵심 특징은 사고 과정(Chain of Thought)을 효과적으로 활용한다는 점입니다.

단계 설명 수식 및 예시
Step 1: 문제 분해 복잡한 문제를 여러 개의 작은 하위 문제로 분해 $P = {p_1, p_2, …, p_n}$
예: “123 + 456”을 “백의 자리 덧셈”, “십의 자리 덧셈”, “일의 자리 덧셈”으로 분해
Step 2: 단계별 추론 각 하위 문제에 대해 순차적으로 추론을 수행 $R_i = f(p_i)$, 여기서 $f$는 추론 함수
예: 1) 1+4=5, 2) 2+5=7, 3) 3+6=9
Step 3: 중간 결과 저장 각 단계의 추론 결과를 저장하여 다음 단계에서 활용 $M = {R_1, R_2, …, R_n}$
예: M = {5, 7, 9}
Step 4: 오류 검출 및 수정 각 단계에서 발생할 수 있는 오류를 검출하고 수정 $R_i’ = g(R_i)$, 여기서 $g$는 오류 검출 및 수정 함수
예: 자리 올림 확인 - 7+9=16, 1을 다음 자리로 올림
Step 5: 최종 답변 도출 모든 단계의 결과를 종합하여 최종 답변을 생성 $A = h(M)$, 여기서 $h$는 결과 종합 함수
예: 579 (5백, 7십, 9)

이러한 사고 과정의 효과는 다음과 같은 수학적 모델로 설명할 수 있습니다.

\[P(\text{correct}) = 1 - \prod_{i=1}^{n} (1 - p_i)\]
  • $n$: 사고 과정의 단계 수
  • $p_i$: i번째 단계에서의 정답 확률

이 모델은 각 단계에서 오류가 발생하지 않을 확률의 곱을 1에서 뺀 값으로, 전체 과정에서 정답을 얻을 확률을 나타냅니다.


4. o1 모델의 안전성 및 윤리적 고려사항

o1 모델의 개발 과정에서 안전성과 윤리적 측면이 중요하게 고려되었습니다. 이를 위한 접근 방식을 단계별로 살펴보겠습니다.

  • 안전 정책 설계: 휴먼의 가치와 원칙을 반영하는 안전 정책을 수립
  • 안전 규칙 학습: 모델이 안전 규칙에 대해 추론할 수 있도록 학습
  • 안전성 평가: 다양한 시나리오에서 모델의 안전성을 테스트
  • 피드백 및 개선: 평가 결과를 바탕으로 모델을 지속적으로 개선

안전성 평가 결과는 다음과 같은 지표로 quantify 할 수 있습니다.

평가 항목 GPT-4o o1-preview
표준 유해 프롬프트에 대한 안전한 응답 비율 99.0% 99.5%
도전적 유해 프롬프트에 대한 안전한 응답 비율 71.4% 93.4%
괴롭힘(심각) 84.5% 90.0%
미성년자 관련 성적 내용 70.7% 93.1%
비폭력적 불법 행위 조언 68.8% 96.1%
폭력적 불법 행위 조언 77.8% 96.3%


5. 결론 및 향후 전망

o1 모델은 인공지능의 추론 능력을 크게 향상시킨 모델로 주요 성과는 다음과 같은 의의를 갖습니다.

  • 1) 과학, 코딩, 수학 분야에서의 새로운 AI 활용 가능성 제시
  • 2) 휴먼의 가치와 원칙에 부합하는 AI 모델 개발 가능성 확대
  • 3) AI의 추론 능력 향상을 통한 복잡한 문제 해결 능력 제고

향후 연구 방향은 다음과 같이 예상됩니다.

  • 1) 사고 과정의 더욱 효과적인 활용 방안 연구
  • 2) 안전성과 성능의 균형을 위한 새로운 학습 방법 개발
  • 3) 다양한 분야에서의 실제 응용 사례 확대



References

  1. OpenAI o1 모델 공식 발표: https://openai.com/research/o1-model
  2. AIME (American Invitational Mathematics Examination): https://www.maa.org/math-competitions/american-invitational-mathematics-examination-aime
  3. Codeforces: https://codeforces.com/
  4. Elo 레이팅 시스템: https://en.wikipedia.org/wiki/Elo_rating_system
Previous: Data | Google | LLM Data using LLMs Next: Survey | LLM Recommendation

post contain ""

    No matching posts found containing ""