GPT-4 Technical Report
1. 서론
GPT-4는 이미지 및 텍스트 입력을 처리하고 텍스트 출력을 생성할 수 있는 대규모 다중 모드 모델입니다. 이 모델은 대화 시스템, 텍스트 요약, 기계 번역 등 다양한 애플리케이션에 활용될 수 있는 잠재력을 갖고 있습니다. 최근 몇 년 간 이런 모델은 상당한 관심과 진보를 이끌어왔습니다. 특히, GPT-4는 휴먼을 대상으로 설계된 여러 시험에서 향상된 성능을 보여주며, 특히 변호사 시험에서는 휴먼 평균을 크게 상회하는 결과를 얻었습니다.
2. 기술 보고서의 범위 및 한계
이 기술 보고서는 GPT-4의 능력, 한계 및 안전성 특성에 중점을 두고 있습니다. GPT-4는 트랜스포머 스타일 모델로서, 문서에서 다음 토큰을 예측하기 위해 사전 훈련된 모델입니다. 이 모델은 인터넷 데이터뿐만 아니라 제3자 제공자로부터 라이센스를 받은 데이터를 사용하여 추가로 파인튜닝되었습니다.
3. 예측 가능한 확장
GPT-4 프로젝트의 주요 초점 중 하나는 다양한 규모에서 예측 가능하게 동작하는 딥러닝 스택을 구축하는 것이었습니다. 이런 인프라와 최적화 방법의 개선을 통해, GPT-4의 성능을 더 작은 모델에서의 성능을 기반으로 예측할 수 있었습니다.
3.1 손실 예측
GPT-4의 최종 손실은 다음의 수식으로 예측할 수 있습니다. \(L(C) = aC^b + c,\) \(C\)는 훈련에 사용된 계산량, \(a\), \(b\), \(c\)는 모델링된 파라미터입니다. 이 예측은 GPT-4의 성능을 실제와 근접하게 예측하였습니다.
3.2 휴먼 평가 데이터셋에서의 성능 확장
GPT-4의 능력에 대한 이해는 모델을 훈련시키기 전에 적절한 정렬, 안전성, 그리고 배포에 관한 결정을 개선할 수 있습니다. HumanEval 데이터셋에서의 패스율을 예측하는 것은 다음의 수식으로 모델링됩니다.
\[-E_P[\log(\text{pass\_rate}(C))] = \alpha * C^{-k},\]\(k\)와 \(\alpha\)는 양의 상수이며, \(P\)는 데이터셋의 문제 집합입니다. 이 방법을 통해 GPT-4의 성능을 효과적으로 예측할 수 있었습니다.
이런 수학적 모델링과 예측 방법은 GPT-4의 개발과 평가 과정에서 중요한 역할을 하였으며, 이를 통해 모델의 성능과 안전성을 보다 체계적으로 관리할 수 있었습니다.
4. 능력 및 성능
GPT-4는 다양한 학문적 및 전문적 시험에서 휴먼 수준의 성능을 보여주는 대규모 언어모델입니다. 이 서는 시험별 성능을 분석하고, 해당 결과들이 GPT-4의 능력을 어떻게 반영하는지 논의합니다.
4.1 시험별 성능
GPT-4는 다양한 시험에서 높은 성능을 보여줍니다. 예를 들어, 통합 변호사 시험에서는 상위 10% 내의 점수를 얻었으며, LSAT에서는 상위 88%, SAT에서는 독해 및 작문 부분에서 상위 93%, 수학 부분에서 상위 89%의 성능을 기록했습니다. 이 외에도 GRE, AP 시험, 그리고 다양한 분야의 전문 시험에서도 향상된 점수를 달성하였습니다.
4.2 성능의 수학적 분석
GPT-4의 성능을 수학적으로 분석하면, 다음과 같은 일반적인 수식을 사용하여 모델의 예측 능력을 평가할 수 있습니다.
\[\text{Performance}(GPT-4) = \frac{\sum \text{correct answers}}{\text{total questions}} \times 100\%\]이 수식은 GPT-4가 특정 시험에서 얻은 정답의 비율을 계산하여 전체 성능을 평가합니다. 이런 분석은 모델이 어떤 유형의 문제에서 강점을 보이는지, 어디에 약점이 있는지를 파악하는 데 도움을 줍니다.
4.3 시험 준비 및 평가 방법
시험 준비 과정에서 GPT-4는 특정 훈련을 거치지 않았으며, 모든 시험은 공개된 자료를 바탕으로 시뮬레이션되었습니다. 이는 GPT-4가 일반적인 언어 모델링 능력만을 사용하여 이런 시험에서 높은 성능을 발휘했음을 시사합니다. 시험은 객관식 및 서술형 문제를 포함하며, 이미지가 필요한 문제의 경우 이미지를 입력으로 제공하였습니다.
5. 제한사항
GPT-4는 강력한 능력을 보유하고 있지만, 여전히 “확장”이라는 문제를 겪고 있으며, 때로는 비현실적인 답변을 생성하기도 합니다. 이는 고위험 상황에서 GPT-4의 출력을 사용할 때 주의가 필요함을 의미합니다. 모델의 출력은 특정 애플리케이션의 요구에 맞게 조정되어야 하며, 때로는 휴먼의 검토가 필요할 수 있습니다.
5.1 실제 사용 시 고려사항
GPT-4는 여러 학문적 및 전문적 시험에서 높은 성능을 보여주었으나, 여전히 신뢰성과 안전성 문제를 해결해야 할 필요가 있습니다.
6. 위험 요소 및 완화 조치
GPT-4 개발 과정에서 안전성과 정렬 향상을 위한 상당한 노력이 투입되었습니다. 이 서는 도메인 전문가를 활용한 적대적 테스트와 모델 지원 안전 파이프라인에 대해 강조하며, 이전 모델 대비 안전 메트릭스의 향상을 설명합니다.
6.1 적대적 테스트를 통한 위험 평가
GPT-4는 다른 작은 언어 모델과 마찬가지로 해로운 조언, 버그 코드 또는 부정확한 정보 생성과 같은 위험을 안고 있습니다. 그러나 GPT-4의 추가적인 기능으로 새로운 위험 영역이 발생합니다. 이런 위험의 범위를 이해하기 위해 AI 장기 정렬 위험, 사이버 보안, 생물학적 위험, 국제 보안 등의 분야에서 50명 이상의 전문가들을 참여시켜 모델을 적대적으로 테스트했습니다. 이런 평가는 모델이 고위험 영역에서의 행동을 테스트하고, 관련 위험을 평가하는 데 특히 유용했습니다.
6.2 모델 지원 안전 파이프라인
GPT 모델과 마찬가지로, 휴먼의 피드백으로부터 강화 학습(RLHF)을 사용하여 모델의 행동을 사용자의 의도와 더 잘 맞도록 조정합니다. 그러나 RLHF 후에도 모델은 안전하지 않은 입력에 대해 여전히 취약할 수 있으며, 안전한 입력에 대해서도 때때로 원치 않는 행동을 보일 수 있습니다.
이런 원치 않는 행동은 보상 모델 데이터 수집 중 레이블 지정 지시가 명확하지 않았을 때 발생할 수 있습니다. 위험한 입력을 받았을 때 모델은 범죄에 대한 조언과 같은 부적절한 콘텐츠를 생성할 수 있으며, 안전한 입력에 대해서도 과도하게 조심스러워 질 수 있습니다.
6.3 규칙 기반 보상 모델 (RBRMs)
GPT-4 정책 모델을 RLHF 파인튜닝하는 동안 올바른 행동을 목표로 추가 보상 신호를 제공하는 일련의 규칙 기반 분류기인 RBRM을 개발했습니다.
예를 들어, 모델에게 유해한 콘텐츠 생성을 거부하거나 해로운 요청이 아닌 요청을 거부하지 않도록 지시할 수 있습니다. 이런 기술은 Glaese et al. (2022)과 Perez et al. (2022)의 연구와 관련이 있습니다.
6.4 안전 메트릭스 개선
완화 조치는 GPT-4의 많은 안전 속성을 크게 개선했습니다. 예를 들어, GPT-4는 GPT-3.5에 비해 요청된 부적절한 콘텐츠에 대한 반응을 82% 감소시켰습니다. 또한, GPT-4는 민감한 요청(e.g., 의료 조언 및 자해)에 대해 정책에 따라 29% 더 자주 반응합니다.
Appendix
A.1: 자료 출처 및 수집
본 서는 최신 공개 시험 자료나 출판된 제3자 학습 자료에서 다중 선택 문제들을 수집하였습니다. 수집된 자료는 모델의 훈련 데이터와 비교하여 교차 검증을 통해 훈련 데이터에 시험 문제가 섞이지 않았는지 확인합니다. 이런 검증 과정은 모델의 정확성을 보장하는 데 중요한 역할을 합니다.
A.2: 다중 선택 문제 방법
다중 선택 문제에 대한 접근 방법은 다음과 같습니다. 골드 스탠다드 해설과 답변을 포함한 few-shot 프롬프트를 사용하여 각 문제에 대한 해석을 추출합니다. 이런 방법은 각 시험 형식에 맞는 정확한 답변을 도출하는데 중요합니다.
\[\text{Response} = \text{Sample}( \text{Explanation} | \text{Temperature} = 0.3 )\]위 수식은 문제에 대한 답변을 선택하는 과정을 수학적으로 표현한 것입니다. ‘Temperature’는 모델의 응답 다양성을 조절하는 파라미터입니다.
A.3: 서술형 문제 방법
서술형 문제에 대해서는, 문제의 프롬프트를 간단한 지시 사항으로 제공하고, 응답을 추출하기 위해 온도 0.6을 사용하여 샘플링합니다. 이 접근 방식은 문제의 의도를 명확하게 파악하고, 모델이 정확한 답변을 생성할 수 있도록 합니다.
\[\text{Free-response} = \text{Sample}( \text{Prompt} | \text{Temperature} = 0.6 )\]이 수식은 서술형 문제에 대한 응답을 생성하는 과정을 나타냅니다.
A.4: 이미지 처리
일부 시험 문제에서 이미지가 포함될 수 있습니다. 텍스트 모델은 ‘IMAGE:’ 태그와 함께 비의미적인 파일 이름을 사용하여 이미지 정보의 부재를 나타냅니다. 멀티모달 모델을 사용할 경우, 프롬프트에 이미지를 포함시켜 문제를 해결합니다.
A.5: 점수화 방법
각 시험 유형에 따른 점수는 사용 가능한 가장 좋은 방법을 사용하여 합성됩니다. 예를 들어, SAT의 경우 다중 선택 점수를 공식 채점 차트를 사용하여 스케일 점수로 변환합니다. GRE 점수의 경우 다음과 같이 스케일링합니다.
\[\text{Scaled Score} = \text{Accuracy} \times 40 + 130\]B. RLHF가 모델 능력에 미치는 영향
RLHF (Reinforcement Learning with Human Feedback)의 영향을 평가하기 위해, GPT-4 기본 모델과 RLHF 후의 모델을 사용하여 다중 선택 시험 벤치마크를 실행했습니다. 결과는 아래 표 8에서 확인할 수 있습니다. 모든 시험의 평균 결과를 보면, 기본 모델은 73.7%의 점수를 달성한 반면, RLHF 모델은 74.0%를 달성하여, RLHF가 기본 모델의 능력을 크게 변화시키지 않는 것으로 나타났습니다.
서술형 문제에 대해서는 기본 모델과 RLHF 모델을 동등한 조건에서 비교하기 어렵습니다. 서술형 응답 샘플링 방법은 모델이 지시사항을 따르는 능력에서 혜택을 받을 가능성이 있기 때문입니다.
시험 | 기본 모델 성적 | RLHF 모델 성적 |
---|---|---|
LSAT (MCQ) | 67.0% | 72.0% |
SAT EBRW - Reading | 92.3% | 90.4% |
SAT EBRW - Writing | 90.9% | 84.1% |
SAT Math (MCQ) | 91.4% | 86.2% |
GRE Quantitative | 57.5% | 67.5% |
GRE Verbal | 87.5% | 90.0% |
통계적으로 RLHF 모델은 전반적인 평균에서 0.3% 포인트의 향상을 보였습니다. 이는 RLHF 훈련이 기본 모델의 능력에 실질적인 변화를 주지 않았다는 것을 의미합니다. 각 시험 결과를 세부적으로 보면, 일부 시험에서는 RLHF 모델이 기본 모델보다 나은 성적을 보였으나, 다른 시험에서는 기본 모델이 더 우수한 결과를 보였습니다.
기본 모델과 RLHF 모델의 평균 점수 차이를 계산하면 다음과 같습니다.
\[\text{Average Improvement} = \text{RLHF Model Score} - \text{Base Model Score} = 74.0\% - 73.7\% = 0.3\%\]이 결과는 RLHF가 기본 GPT-4 모델의 전반적인 성능을 크게 변경하지 않았음을 보여줍니다. 따라서 RLHF는 모델의 성능을 약간 향상시킬 수는 있으나, 기본 능력에 대한 근본적인 변화를 주지는 않는 것으로 판단됩니다. 이런 결과는 RLHF 훈련이 기존의 훈련 방식에 비해 추가적인 이점을 제공하지만, 그 변화가 미미하다는 점을 시사합니다.
[RLHF의 개선이 크지 않았음을 보고함 (?) 색인마킹]
C: 전문적 및 학술 시험의 오염 측정
본 서는 평가 데이터셋과 사전 훈련 데이터 간의 교차 오염을 측정합니다. 이를 위해 모든 공백과 기호를 제거하고 문자와 숫자만을 포함한 데이터로 처리합니다. 평가 예제의 각각에 대해 50자의 무작위 부분 문자열을 세 개 선택하며, 이들 중 하나라도 훈련 예제의 부분 문자열로 확인되면 오염된 예로 판단합니다. 이런 오염된 예들을 제외하고 순수한 점수를 다시 계산합니다.
오염 측정
\[\text{Contamination} = \frac{\text{Number of matched substrings}}{\text{Total substrings sampled}}\]중요한 점은 오염된 데이터를 식별하고 제거하는 과정이 모델의 성능 평가에 어떤 영향을 미칠지 분석하는 것입니다.
D: 학술 벤치마크의 오염 측정
다양한 학술 벤치마크와 GPT 모델의 사전 훈련 데이터 사이의 교차 오염을 측정합니다. 오염이 확인된 경우, 오염되지 않은 데이터만을 사용하여 모델의 성능을 평가합니다. 예를 들어, HumanEval 데이터셋에서는 25%의 오염이 확인되었으며, 오염되지 않은 부분의 데이터만을 사용하여 평가를 진행했습니다.
오염 수정 점수
\[\text{Corrected Score} = \frac{\text{Score from uncontaminated data}}{\text{Total data}}\]오염된 데이터를 제외한 순수한 데이터만을 사용하여 얻은 점수를 계산해 모델의 성능을 더 정확하게 평가합니다.
E: GSM-8K 및 MATH 데이터셋의 활용
GPT-4 모델의 수학적 인퍼런스 능력을 향상시키기 위해 GSM-8K와 MATH 벤치마크의 데이터를 혼합하여 사용했습니다. 이런 데이터는 GPT-4의 훈련 예산 중 극히 작은 부분을 차지합니다. 훈련 중 일부 데이터는 제외되어 모델이 훈련 중 모든 예제를 보지 않도록 했습니다.
데이터 혼합 비율
\[\text{Mixing Ratio} = \frac{\text{Tokens from Math Benchmarks}}{\text{Total Training Tokens}}\]수학 벤치마크에서 가져온 토큰들이 전체 훈련 토큰에서 차지하는 비율을 계산할 수 있고, 모델이 수학적 문제를 해결하는 능력에 어떤 영향을 미칠지를 분석하는 데 사용됩니다.
[데이터 혼합 색인마킹]