Gemma2-2B Model Card: GPT-3.5와 비교에서 유사하게 잘할 수 있는 영역은 잘 답변함.
2.1 모델 아키텍처 및 파라미터
Gemma-2는 이전 모델들과 마찬가지로 디코더-전용 트랜스포머 아키텍처를 기반으로 합니다.
[아키텍처]
3. 사전 학습
3.1 Training Dataset
3.2 지식 증류
대규모 모델을 teacher로 사용하여, 각 토큰에 대한 확률을 작은 모델에 전달하며, teacher 모델의 출력 확률 \(P_T(x\\|x_c)\)과 student 모델의 예측 확률 \(P_S(x\\|x_c)\) 간의 음의 로그 가능도를 최소화합니다.
\[\text{Loss} = -\sum \log P_S(x\\|x_c) \cdot P_T(x\\|x_c)\]이 방식은 student 모델이 teacher 모델의 출력 분포를 효과적으로 모방하도록 하며, 이 과정은 한 번의 인퍼런스 후에 저장된 확률을 사용하여 메모리 사용을 최적화합니다.
4. 사후 훈련 (Post-Training)
사후 훈련 단계에서는 사전 훈련된 모델을 지시 기반 모델로 세부 조정합니다. 이 과정은 모델의 유용성을 높이고 잠재적인 해로움을 최소화하기 위해 선택된 최종 데이터 혼합물과 튜닝된 하이퍼파라미터를 포함하는 레시피에 따라 진행됩니다.
4.1 지도 학습 세부 조정 (Supervised Fine-Tuning, SFT)
4.2 강화 학습을 통한 휴먼 피드백 (RLHF)
4.3 모델 병합
4.4 데이터 필터링
4.5 포맷팅
예시 대화 구조
<start_of_turn>user Knock knock.<end_of_turn>
모델: <start_of_turn>model Who’s there?<end_of_turn><eos>
<start_of_turn>user Knock knock.<end_of_turn>
모델: <start_of_turn>model Who’s there?<end_of_turn>
사용자: <start_of_turn>user Gemma.<end_of_turn>
모델: <start_of_turn>model Gemma who?<end_of_turn><eos>
1. 서론
최근 대규모 언어모델(Large Language Models, LLMs)은 언어 이해, 생성 및 인퍼런스 분야에서 향상된 성능을 보여주었습니다. 특히, 모델의 규모를 확장하는 것이 이런 진보의 핵심이 되었으며, 다양한 새로운 능력들이 대규모에서만 나타나고 있습니다. 그러나 작은 규모의 모델들도 훈련 기간의 길이를 늘림으로써 성능이 빠르게 향상되고 있습니다. 이는 데이터셋 크기와 로그함수적으로 비례하여 성능이 증가한다는 이론적 근거에 기반합니다(Hoffmann et al., 2022). 본 연구에서는 훈련 기간을 단순히 늘리는 것이 아닌, 훈련 단계에서 네트워크가 받는 정보의 질을 개선하는 방법을 모색합니다. 이를 위해 지식 증류(Knowledge Distillation) 방법을 사용하여 작은 모델의 성능을 향상시키는 실험을 진행하였습니다.
방법
본 연구에서는 대규모 모델을 사용하여 작은 모델들을 훈련시키는 방법을 제안합니다. 구체적으로, 다음 토큰 예측 작업을 대체하는 더 풍부한 목표를 설정하여, 지식 증류를 통해 작은 모델들에게 더 풍부한 그래디언트를 제공합니다. 이 과정에서 사용된 수학적 방법은 다음과 같습니다.
\[\text{Distillation Loss} = \sum_{t=1}^{T} \text{KL} \left( p || q \right)\]\(p\)는 대규모 모델에 의해 계산된 가능한 다음 토큰들의 분포, \(q\)는 작은 모델에 의해 예측된 분포를 나타내며, \(\text{KL}\)은 쿨백-라이블러 발산을 의미합니다. 이 손실 함수는 작은 모델이 대규모 모델의 예측을 모방하도록 유도하며, 이를 통해 효과적으로 “더 큰” 훈련 데이터셋에서 학습하는 효과를 낼 수 있습니다.
실험 및 평가
이런 방법을 적용하여 2.6B, 9B, 27B 크기의 모델들을 훈련시켰으며, 이 모델들은 표준 학술 벤치마크 및 사용자 선호도 평가에서 상대적으로 더 큰 모델들과 비교하여 경쟁력 있는 성능을 보여주었습니다. 이런 평가는 다음과 같은 수식을 사용하여 계산되었습니다.
\[\text{Performance} = \frac{1}{N} \sum_{i=1}^{N} \text{Accuracy}(i)\]\(N\)은 테스트 케이스의 수, \(\text{Accuracy}(i)\)는 각 테스트 케이스에 대한 정확도를 의미합니다. 이 결과는 모델이 어떻게 다양한 언어 처리 작업에서 유효하게 작동하는지를 보여주며, 작은 모델의 훈련 방식을 재고할 필요성을 강조합니다.
본 연구는 작은 규모의 언어 모델의 성능을 개선하기 위한 새로운 접근 방식을 제시합니다. 지식 증류를 통해, 작은 모델들이 실제로 사용 가능한 토큰 수보다 훨씬 많은 양의 데이터로부터 학습할 수 있도록 하여, 이론적으로 예측된 최적의 양보다 50배 이상의 계산량에서도 효과적으로 학습이 가능함을 입증하였습니다. 이 연구는 또한 안전하고 책임감 있는 배포를 위한 방법을 논의하며, Gemma2의 한계와 장점을 설명합니다.
2. 모델 아키텍처
Gemma 2 모델은 기존 Gemma 모델들과 유사하게 디코더-온리 트랜스포머 아키텍처를 기반으로 합니다.
이런 아키텍처 선택은 이전 연구에서 성능 개선을 위해 사용된 글로벌 및 로컬 어텐션 계층의 교차 사용 등을 반영하고 있습니다. 또한, 로지트 소프트 캡핑을 통해 어텐션 계층과 최종 계층의 로지트 값이 특정 범위 내에서 유지되도록 조정합니다.
\[\text{logits} \leftarrow \text{soft\_cap} \cdot \tanh\left(\frac{\text{logits}}{\text{soft\_cap}}\right)\]3. 사전 훈련
Gemma 2 모델은 주로 영어 데이터를 포함한 13조 토큰에 대해 훈련되었습니다. 이 훈련 과정에서 중요한 부분은 지식 증류를 통한 학습입니다. 큰 모델로부터 각 토큰의 가능한 분포를 학습하여 소규모 모델에 적용함으로써, 소규모 모델이 보다 풍부한 그래디언트를 경험하게 됩니다.
\[\sum \min \left(-\log \frac{P_S(x | x_c)}{P_T(x | x_c)}\right)\]$$ P_T(x | x_c) \(는 teacher 모델이고,\) P_S(x | x_c) $$는 student 모델입니다. |
4. Post-training
Post-training 과정에서는 사전 훈련된 모델들을 지시 기반 튜닝을 통해 파인튜닝합니다. 우선, 영어로만 구성된 합성 데이터와 휴먼이 생성한 프롬프트-응답 쌍에 대해 감독된 파인튜닝(Supervised Fine-Tuning, SFT)을 적용합니다. 그 후, 이 모델들에 대해 휴먼의 피드백에서 학습하는 강화 학습(RLHF)을 적용합니다. 이때 보상 모델은 레이블이 붙은 영어 선호 데이터에 기반하여 훈련되며, 정책은 SFT 단계와 동일한 프롬프트를 기반으로 합니다. 최종적으로, 각 단계 후 얻은 모델들을 평균내어 전반적인 성능을 향상시킵니다. 최종 데이터 혼합과 post-training 레시피는 유용성을 높이고 모델 해로움을 최소화하는 것을 목표로 선택되었습니다.
SFT
주로 큰 모델에 의해 생성된 합성 프롬프트와 응답을 사용하여 행동 복제를 실행합니다. 또한, teacher 모델로부터 student 모델의 분포에 대한 지식 증류를 수행합니다.
\[\text{SFT Loss} = \sum_{(x, y) \in \text{Data}} -\log P(y|x)\]$$P(y | x)\(는 조건부 확률 모델이며,\)x\(는 입력 텍스트,\)y$$는 대응하는 출력입니다. |
RLHF
이 단계에서는 Gemma v1.1에서 사용된 것과 유사한 RLHF 알고리즘을 사용하지만, 보상 모델은 정책보다 한 차수 더 크고 대화 능력, 특히 다중 턴에 더 초점을 맞추고 있습니다.
\[\text{RLHF Loss} = -\mathbb{E}_{\pi}[r(s, a)]\]\(r(s, a)\)는 상태 \(s\)와 액션 \(a\)에 대한 보상 함수이며, \(\pi\)는 정책입니다.
모델 병합 다양한 하이퍼파라미터로 실행된 실험에서 얻은 모델들을 평균하여, 최적의 성능을 도출합니다. 이는 일관된 성능 향상과 함께 모델의 견고성을 증가시키는 데 기여합니다.
데이터 필터링 합성 데이터를 사용할 때, 특정 개인 정보, 안전하지 않거나 독성이 있는 모델 출력, 오인된 자기 식별 데이터, 중복된 예제들을 제거하기 위해 여러 단계의 필터링을 실행합니다. 이런 필터링은 사실성 지표의 성능을 향상시키는 동시에 다른 지표에 대한 모델 성능을 저하시키지 않습니다.
포맷팅 Gemma 2 모델은 Gemma 1 모델과 다른 포맷 스키마로 파인튜닝됩니다. 동일한 제어 토큰을 사용하며, 테이블 5에서 대화 예시를 제시합니다. 이런 포맷 구조의 동기는 Gemma 1에서 자세히 설명되어 있습니다.
5. 절제 연구
이 섹션에서는 지식 증류가 소형 언어 모델에 미치는 영향, 즉 주요 발견에 초점을 맞춥니다. 지식 증류를 통해 교육받은 2.6B 모델은 500B 토큰을 사용하여 스크래치부터 훈련받은 모델보다 성능이 향상되었습니다. 이는 계산 최적 토큰 수의 10배에 해당합니다. 7B 모델에서 2.6B 모델로 증류를 시도함으로써, 최종 teacher와 student 사이즈 간의 유사한 갭을 시뮬레이션합니다.
지식 증류와 모델 크기 모델 크기가 증가함에 따라 지식 증류의 영향이 얼마나 증감하는 지를 측정합니다. teacher의 크기를 7B로 유지하고 더 작은 모델을 훈련시키며 이와 같은 갭을 유지합니다.
6. 평가
이 섹션에서는 다양한 도메인에 걸쳐 자동 벤치마크와 휴먼 평가를 통해 사전 훈련된 모델과 지시 기반 튜닝(IT) 모델의 성능을 평가합니다. 또한, 허용 라이선스를 가진 비슷한 크기의 모델이나 다른 연구에서 보고된 모델의 성능도 함께 보고합니다. 전체 파라미터 수(활성 파라미터가 아닌)를 고려하는 것이 중요합니다. 왜냐하면 종종 전체 메모리 사용량이 표준 장치에서 오픈 모델의 사용을 제한하기 때문입니다.
6.1. 사전 훈련 평가
27B 모델의 성능을 평가합니다. 이 모델은 13T 토큰에 대해 증류 없이 훈련되었습니다. HuggingFace 평가 스위트에서 비슷한 크기의 Qwen1.5 34B 모델과 2.5배 더 큰 LLaMA-3 70B 모델과 비교합니다. 본 논문의 모델은 크기 카테고리에서 최고의 성능을 보여주며, 더 긴 훈련을 받은 큰 모델과도 경쟁력이 있습니다. 그러나 모델들의 성능은 그 크기와 로그함수적으로만 향상되므로, 본 논문의 모델은 LLaMA-3 모델들과 동일한 파레토 곡선에 있을 가능성이 높습니다.
2.6B 및 9B 모델 평가
새로운 2.6B 및 9B 모델을 증류를 통해 훈련시킨 결과, 이전 버전과 비교해 최대 10%의 성능 향상을 관찰했습니다. 2T 토큰으로 훈련된 2.6B v2 모델과 3T 토큰으로 훈련된 v1.0 모델 모두에서 상당한 개선을 확인할 수 있습니다. 이는 지식 증류가 동일한 토큰 수로 훈련될 때에도 모델의 품질을 크게 향상시키는 것을 확인시켜 줍니다.
6.2. Post-training 평가
LMSYS Chatbot Arena에서 Gemma 9B 및 27B IT 모델은 오픈웨이트 모델에 대한 새로운 최고의 성능을 설정했습니다. 휴먼 평가자들이 다른 SOTA 모델들과 비교하여 이들 모델을 평가한 결과, Gemma 27B 모델은 더 큰 Llama3-70B Instruct 및 Nemotron-4-340B-Instruct 모델을 소폭 초과하는 새로운 최고 기록을 세웠습니다. Gemma 9B는 동일한 파라미터 범위의 모든 다른 모델을 크게 능가했습니다.
휴먼 다중 턴 평가
500개의 다양한 시나리오 세트에서 Gemma 1.1 7B, Gemma 2 9B 및 27B 모델의 다중 턴 기능을 평가했습니다. 이 대화에서 Gemma 2 모델은 사용자 만족도와 대화 목표 달성에서 Gemma 1.1 모델보다 유의미하게 더 높은 평가를 받았습니다(Table 15). 또한, 대화 초기부터 후반까지 응답의 질이 높게 유지되는 데에서 Gemma 2 모델이 Gemma 1.1 7B 모델보다 우수함을 확인했습니다.
표준 벤치마크
LLaMA-3에서 관찰된 바와 같이, 지시 파인튜닝은 몇 샷 벤치마크에서 모델의 성능을 향상시킬 수 있습니다(Table 16). IT 모델은 형식화된 질문을 이해하는 데 더 우수하다는 것이 추측입니다. 사전 훈련된 모델은 형식에 민감하기로 알려져 있습니다.
7. 책임, 안전, 보안
책임, 안전, 보안은 Gemma 모델 개발 시 중요한 요소입니다. Gemma 2 사용자에 대한 위험을 줄이기 위해, 최근 Google AI 모델과 일치하는 개발 워크플로우를 아우르는 향상된 내부 안전 절차를 통합하였습니다. 최초의 Gemma 릴리스와 유사하게, 훈련 시간의 안전 완화, 견고하고 투명한 모델 평가, 그리고 책임 있는 생성 AI 도구 키트의 추가 개발에 중점을 둔 세 가지 주요 접근 방식을 따랐습니다.
7.1. 영향 평가
Gemma 1에 대해 설명된 바와 같이, AI의 개방성이 사회 전반에 걸쳐 이 기술들의 혜택을 확산할 수 있다고 믿지만, 딥페이크 이미지 생성, AI 생성 정보 조작 또는 불법 및 혼란스러운 자료의 위험을 평가해야 합니다. V1 출시 이후, Gemma 모델이 Gemma의 고유한 기술을 활용하여 사회적으로 유익한 여러 응용 프로그램을 추진하는 것을 보았습니다. 예를 들어, 15개 인도 언어에 대한 Gemma 조정 모델인 Navaras 2.0의 생성을 도왔습니다. 추가적인 오픈 모델의 릴리스는 모델 기능의 변화와 LLM의 진화하는 위험을 면밀히 모니터링할 필요가 있습니다.
7.2. 안전 정책 및 훈련 시 완화 조치
Gemma의 안전 접근 방식의 핵심은 Google의 안전 정책과 일치하는 파인튜닝된 모델을 맞추는 것입니다. 이런 정책은 모델이 유해한 콘텐츠를 생성하는 것을 방지하는 데 도움을 줍니다. 예를 들어, 아동 성적 학대 및 착취, 해로울 수 있는 개인 식별 정보(e.g., 사회 보장 번호) 공개, 증오 발언 및 괴롭힘, 위험하거나 악의적인 콘텐츠(자해 촉진 또는 해로운 활동 지시 포함), 성적으로 명시적인 콘텐츠, 과학적 또는 의료적 합의에 반하는 의료 조언 등을 방지하기 위해 설계되었습니다. 사전 훈련 데이터의 상당한 안전 필터링을 수행하여 사전 훈련 및 파인튜닝된 체크포인트에서 유해 콘텐츠 생성 가능성을 줄였습니다.
7.3. 외부 벤치마크 평가
견고하고 투명한 평가는 Gemma 개발의 책임 있는 접근 방식의 핵심 원칙입니다. 이를 위해 Gemma 2 평가를 공개 벤치마크에서 보고합니다.
7.4. 보증 평가
또한 IT 모델을 일련의 보증 평가를 통해 실행하여 모델이 야기할 수 있는 해를 이해합니다. 극단적인 위험에 관련된 기능에 초점을 맞춥니다. 구체적으로, 공격적 사이버 보안, 코드 취약성 탐지, 화학, 생물학, 방사능 및 핵(CBRN) 지식, 자기 증식 등을 평가합니다.
8 결론 및 토론
이 연구에서는 Gemma 2, Gemma 오픈 언어 모델 패밀리의 최신 추가 사항을 제시하고 있습니다. 이 모델들을 훈련시키는 데 증류가 효과적인 방법임을 보여주며, 순수 텍스트 훈련보다 우수한 결과를 낳을 수 있음을 보여줍니다.