Created: 2024-07-17 08:52:44 +0000
Last modified: 2024-09-05
20:56:50 +0900
Model | Qwen 2 Report
- Related Project: Private
- Category: Paper Review
- Date: 2024-06-28
Qwen2 Technical Report
- url: https://arxiv.org/abs/2407.10671
- pdf: https://arxiv.org/pdf/2407.10671
- html: https://arxiv.org/html/2407.10671v3
- abstract: This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.5, and exhibits competitive performance relative to proprietary models across diverse benchmarks on language understanding, generation, multilingual proficiency, coding, mathematics, and reasoning.
The flagship model, Qwen2-72B, showcases remarkable performance: 84.2 on MMLU, 37.9 on GPQA, 64.6 on HumanEval, 89.5 on GSM8K, and 82.4 on BBH as a base language model. The instruction-tuned variant, Qwen2-72B-Instruct, attains 9.1 on MT-Bench, 48.1 on Arena-Hard, and 35.7 on LiveCodeBench. Moreover, Qwen2 demonstrates robust multilingual capabilities, proficient in approximately 30 languages, spanning English, Chinese, Spanish, French, German, Arabic, Russian, Korean, Japanese, Thai, Vietnamese, and more, underscoring its versatility and global reach.
To foster community innovation and accessibility, we have made the Qwen2 model weights openly available on Hugging Face1 and ModelScope2, and the supplementary materials including example code on GitHub3. These platforms also include resources for quantization, fine-tuning, and deployment, facilitating a wide range of applications and research endeavors.
Contents
TL;DR
- Qwen2 모델은 Transformer 아키텍처 기반의 다양한 크기의 모델로 구성되며, Grouped Query Attention과 Dual Chunk Attention을 도입하여 인코딩 효율성 및 처리 성능을 개선하였습니다.
- MoE 모델은 각 토큰을 처리할 전문가를 선택하는 게이트 네트워크를 통해 경량화된 여러 FFN을 사용합니다.
- Qwen2는 다양한 언어 및 도메인의 대규모 고품질 데이터셋을 활용하여 사전 훈련되었으며, 강화학습 및 지도학습을 통해 최종적인 성능 개선을 이루었습니다.
- Grouped Query Attention (GQA)
- GQA는 전통적인 Multi-Head Attention (MHA) 대신 사용되며, KV (Key-Value) 캐시의 사용을 최적화하여 인퍼런스 시 처리량을 크게 향상시킵니다.
- Dual Chunk Attention (DCA) with YARN
- DCA는 긴 시퀀스를 관리 가능한 길이의 청크로 분할하여, 청크 내외의 토큰 간 상대적 위치 정보를 효과적으로 포착합니다.
- YARN은 attention weights를 재조정하여 긴 컨텍스트에서의 성능을 향상시킵니다.
- Mixture-of-Experts (MoE)
- MoE 모델은 각 토큰마다 특정 전문가에게 연산을 할당하여 처리합니다. 이는 소프트맥스 확률을 통해 각 전문가에게 작업을 할당하고, 상위 $k$ 전문가의 출력을 합산하여 결과를 생성합니다.
- Fine-grained Experts
- 세밀한 전문가 구성을 통해 동시에 활성화되는 전문가 수를 늘리며, 이는 전문가의 다양한 조합을 가능하게 하여 성능과 적응성을 향상시킵니다.
- Expert Routing
- 공유 전문가와 라우팅 전용 전문가를 통합하여 MoE 레이어 내에서 다양한 작업에 걸쳐 전문가를 적용하고 특정 라우팅 시나리오에 대해서는 선택적으로 사용할 수 있게 합니다.
주요 파라미터 및 설정
Configuration |
0.5B |
1.5B |
7B |
72B |
57B-A14B |
Hidden Size |
896 |
1536 |
3584 |
8192 |
3584 |
# Layers |
24 |
28 |
28 |
80 |
28 |
# Query Heads |
14 |
12 |
28 |
64 |
28 |
# KV Heads |
2 |
2 |
4 |
8 |
4 |
Head Size |
64 |
128 |
128 |
128 |
128 |
Intermediate Size |
4864 |
8960 |
18944 |
29568 |
2560 |
# Routed Experts |
- |
- |
- |
- |
64 |
# Activated Experts |
- |
- |
- |
- |
8 |
# Shared Experts |
- |
- |
- |
- |
8 |
Embedding Tying |
True |
True |
False |
False |
False |
Vocabulary Size |
151,646 |
151,646 |
151,646 |
151,646 |
151,646 |
# Trained Tokens |
12T |
7T |
7T |
7T |
4.5T |
1 서론
최근의 연구는 대규모 언어모델(Large Language Models, LLMs)에 대한 관심이 급증하고 있음을 보여줍니다. ChatGPT의 출시 이후, 여러 기관에서 GPT 수준의 로컬 LLMs 개발에 주력하고 있으며, 이들 모델은 Chatbot Arena에서 휴먼 평가를 통해 그 성능이 검증되었습니다. 특히, Llama-3과 같은 오픈 웨이트 모델이 상업적 모델들과의 성능 격차를 좁히고 있습니다. 이에 대응하여, Qwen 시리즈와 같은 새로운 모델들이 등장하였습니다.
2. Tokenizer & Model
2.1 Tokenizer
Qwen2의 토크나이저는 Qwen 모델의 byte-level byte-pair encoding 방식을 계승하였습니다. 이 토크나이저는 151,643개의 정규 토큰과 3개의 제어 토큰으로 구성되어 있으며, 인코딩 효율성이 뛰어나 다양한 언어에 적합하다는 장점을 갖고 있습니다. 또한, 분산 학습을 고려한 설계로 인해 임베딩 크기가 효과적으로 증가하였습니다.
2.2 Model Architecture
2.2.1 Qwen2 Dense Model
Qwen2 밀집 모델은 다수의 Transformer 계층을 포함하고 있으며, 각 계층은 인과적 주의 메커니즘(causal attention mechanisms)과 피드-포워드 신경망(FFNs)을 갖추고 있습니다. 특히, 다음과 같은 새로운 기술이 도입되었습니다.
- Dense 모델: 여러 크기의 Transformer 레이어를 포함하며, 주요 구성 요소로는 Grouped Query Attention (GQA), Dual Chunk Attention (DCA), YARN 등이 있습니다.
- Grouped Query Attention (GQA): 전통적인 멀티 헤드 어텐션(MHA) 대신 GQA를 사용하여 KV 캐시 사용을 최적화하고 인퍼런스 중 처리량을 향상시킵니다.
- Dual Chunk Attention (DCA) with YARN: 입력 시퀀스를 관리 가능한 길이의 청크로 세분화하여 처리 성능을 개선하며, 청크 간의 상대적 위치 정보를 효과적으로 파악하여 처리합니다.
- 그 외: Additional Technologies: SwiGLU 활성화 함수, RoPE 위치 임베딩, QKV 바이어스, RMSNorm과 사전 정규화를 사용하여 학습 안정성을 향상시켰습니다.
2.2.2 Qwen2 Mixture-of-Experts Model
MoE 모델은 각 토큰을 처리할 전문가를 게이트 네트워크를 통해 결정합니다. 이 모델은 다음과 같은 방정식을 사용하여 각 전문가의 계산 결과를 집계합니다.
\[p = \text{softmax}(G(x)),\]
\[y = \sum_{i \in \text{top } k(p)} p_i E_i(x).\]
이 구조는 다양한 전문가의 활용을 통해 모델의 성능과 적응성을 향상시키며, 특히 세분화된 전문가를 사용하여 다양한 전문가 조합의 장점을 살릴 수 있습니다.
2.2.3 Model Configuration
Qwen2 시리즈는 여러 크기의 모델로 구성되어 있으며, 각 모델은 사전 훈련된 토큰 수와 기타 하이퍼 파라미터를 포함하여 상세히 설정되어 있습니다. 모델의 구성은 효율적인 메모리 사용과 더 긴 컨텍스트 처리 능력에 초점을 맞추고 있습니다.
3. Pre-training
Qwen2의 사전 훈련은 품질 개선, 데이터 확장, 배포 개선을 목표로 하고 있으며, 특히 다양한 언어 및 도메인의 대규모 고품질 데이터셋을 사용합니다. 이런 데이터셋은 모델의 다양한 능력을 향상시키는 데 중요한 역할을 합니다. 또한, 장문의 컨텍스트를 효과적으로 처리하기 위해 컨텍스트 길이를 대폭 확장하였습니다.
4. Post-training
사전 훈련 후, Qwen2는 포스트 트레이닝 단계를 거쳐 최종적으로 도메인 전문성과 사용자 지향적 반응을 개선합니다. 이 과정에서 Supervised learning과 휴먼 피드백에서 강화학습을 사용하여 모델의 성능을 최적화합니다.
Qwen2의 포스트-트레이닝은 휴먼의 피드백에서 학습하여 모델의 성능을 최적화합니다. 이 과정은 Supervised Fine-Tuning (SFT)과 Reinforcement Learning from Human Feedback (RLHF)를 포함하며, 다음과 같은 절차를 따릅니다.
- SFT: 명확하고 정확한 반응을 생성하기 위해 사전에 정의된 대응 데이터를 사용합니다.
- RLHF: 모델이 실시간으로 성능을 개선할 수 있도록 설계된 과정으로, 보상 모델을 통해 선호도가 높은 반응을 선택합니다.
[참고자료 1] DCA(Dual Chunk Attention) in Qwen-2
Dual Chunk Attention (DCA)은 Qwen2 모델에서 도입된 주요 기술 중 하나로, 긴 시퀀스 데이터를 효과적으로 처리하기 위해 개발되었습니다. 이 메커니즘은 특히 긴 컨텍스트 성능을 개선하기 위해 설계되었습니다.
관련 논문 Training-Free Long-Context Scaling of Large Language Models
1. 기본 개념
DCA는 입력 시퀀스를 더 작은 ‘청크(chunk)’라고 하는 부분으로 나누어 처리합니다. 각 청크는 독립적으로 처리될 수 있으며, 이는 메모리 사용을 최적화하고 계산 효율을 높이는 데 도움이 됩니다. 기본적으로, DCA는 다음과 같은 단계로 작동합니다.
- 시퀀스 분할: 긴 입력 시퀀스는 관리 가능한 길이의 여러 청크로 분할됩니다.
- 청크별 처리: 각 청크는 독립적으로 어텐션 메커니즘을 적용받아 처리됩니다.
- 컨텍스트 통합: 청크 간의 상대적 위치 정보를 유지하며, 필요한 경우 인접 청크 간의 정보를 교환하여 컨텍스트의 연속성을 보장합니다.
2. 구현 방법
DCA는 특히 두 가지 주요 구성 요소로 구성됩니다.
- 내부 청크 어텐션: 각 청크 내에서 표준 멀티-헤드 어텐션(Multi-Head Attention, MHA)이 적용됩니다. 이는 청크 내부의 토큰들 사이의 상호작용을 처리합니다.
- 크로스 청크 어텐션: 인접한 청크 간의 연결을 위해 도입된 메커니즘입니다. 이는 청크의 경계에서 컨텍스트의 연속성을 유지하는 데 중요한 역할을 합니다.
3. YARN과의 통합
DCA는 YARN (Yielded Automatic Re-scaling of Attention Networks) 메커니즘과 함께 사용되어, 어텐션 가중치의 조정을 통해 긴 시퀀스의 길이 추정을 개선합니다. YARN은 어텐션 가중치를 자동으로 조정하여 길이가 긴 시퀀스에서 성능 저하를 최소화합니다.
4. 성능과 효율성
DCA는 기존의 멀티-헤드 어텐션보다 메모리 요구사항을 크게 줄이면서도 긴 문맥을 효과적으로 처리할 수 있는 능력을 제공하며, 특히 문서 분류, 요약, 기계 번역 등 긴 입력이 필요한 작업에서도 장점이 있습니다.
5. 실험 결과
DCA를 적용한 Qwen2 모델은 긴 컨텍스트 시나리오에서 더 낮은 perplexity를 달성하며, 이는 모델의 이해력과 반응력이 향상되었음을 의미할 수 있습니다. 초기 실험에서 DCA는 기존 방법들에 비해 상당한 성능 개선을 보였으며, 특히 긴 문장의 처리에서 그 차이가 두드러졌음을 보고합니다.