00:00:00

Share Your Feedback 🏝️

ERNIE 4.5 Technical Report

ERNIE 4.5 Technical Report

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Illusion of Illusion of Thiking Next: Self-Guided Process Reward Optimization with Masked Step Advantage for Process Reinforcement Learning

ERNIE 4.5 Technical Report

  • Related Project: Private
  • Category: Paper Review
  • Date: 2025-06-30

ERNIE 4.5 Technical Report

  • url https://yiyan.baidu.com/blog/publication/ERNIE_Technical_Report.pdf?utm_source=substack&utm_medium=email
  • abstract In this report, we introduce ERNIE 4.5, a new family of large-scale multimodal models comprising 10 distinct variants. The model family consist of Mixture-of-Experts (MoE) models with 47B and 3B active parameters, with the largest model having 424B total parameters, as well as a 0.3B dense model. For the MoE architecture, we propose a novel heterogeneous modality structure, which supports parameter sharing across modalities while also allowing dedicated parameters for each individual modality. This MoE architecture has the advantage to enhance multimodal understanding without compromising, and even improving, performance on text-related tasks. All of our models are trained with optimal efficiency using the PaddlePaddle deep learning framework, which also enables high-performance inference and streamlined deployment for them. We achieve 47% Model FLOPs Utilization (MFU) in our largest ERNIE 4.5 language model pre-training. Experimental results show that our models achieve state-of-the-art performance across multiple text and multimodal benchmarks, especially in instruction following, world knowledge memorization, visual understanding and multimodal reasoning. All models are publicly accessible under Apache 2.0 to support future research and development in the field. Additionally, we open source the development toolkits for ERNIE 4.5, featuring industrial-grade capabilities, resourceefficient training and inference workflows, and multi-hardware compatibility.
  • github https://github.com/PaddlePaddle/ERNIE
  • huggingface https://huggingface.co/baidu

ERNIE 4.5

1. 전체 아키텍처

1.1 기본 설계 철학

ERNIE 4.5는 멀티모달 AI의 근본적인 도전과제를 해결하려고 합니다. 기존 모델들이 텍스트와 이미지를 단순히 합쳐서 처리했다면, ERNIE 4.5는 각각의 특성을 살리면서도 서로 협력할 수 있도록 설계

핵심 아이디어: 텍스트는 순차적이고 논리적인 특성을 가지고, 이미지/비디오는 공간적이고 시각적인 특성을 가집니다. 이 둘을 같은 방식으로 처리하면 각각의 장점을 살리기 어렵습니다. (각주: 특히 같은 방식으로 처리하게 되면 이미지 처리에 과하게 비효율적으로 많은 리소스를 투입해야하며, 그래서 현재 채널이나 사이즈가 매우 제한적이며, 리사이즈하는 과정에서 정보 손실이 발생했음.)

1.2 전체 정보 흐름

입력 단계:
텍스트: "이 이미지를 설명해주세요" 
이미지: [고양이 사진]

처리 과정
1. 텍스트 → 텍스트 토큰화 → [토큰1, 토큰2, ...]
2. 이미지 → 비전 인코더 → 비전 토큰들 → [비전토큰1, 비전토큰2, ...]
3. 어댑터에서 두 종류 토큰을 같은 차원으로 맞춤
4. Heterogeneous MoE에서 각각 전용 전문가가 처리하면서 공유 전문가도 함께 작업
5. 최종 텍스트 생성: "이 이미지에는 귀여운 고양이가..."

2. Heterogeneous MoE: 핵심 혁신 구조

2.1 기존 MoE의 한계점 이해

전통적인 MoE (Mixture of Experts)는 다음과 같이 작동

  • 모든 입력을 라우터가 보고 “이 입력은 전문가 A가, 저 입력은 전문가 B가 처리하자”고 결정
  • 하지만 텍스트와 이미지가 섞여있으면 라우터가 혼란스러워함
  • 결과적으로 텍스트 처리 능력이 떨어지거나 이미지 이해가 부족해짐

2.2 ERNIE 4.5의 해결책

전문가 그룹을 3개로 나눔

  1. 텍스트 전문가 (Text Experts): 오직 텍스트 토큰만 처리
  2. 비전 전문가 (Vision Experts): 오직 이미지/비디오 토큰만 처리
  3. 공유 전문가 (Shared Experts): 모든 토큰을 함께 처리
\[\text{Final Output} = \text{SelfAttention}(\text{All Tokens}) + \text{SharedExperts}(\text{All Tokens}) + \text{TextExperts}(\text{Text Tokens}) + \text{VisionExperts}(\text{Vision Tokens})\]
  • $\text{SelfAttention}(\text{All Tokens})$: 모든 토큰이 서로를 ‘주의깊게’ 살펴보며 관계를 파악
  • $\text{SharedExperts}(\text{All Tokens})$: 텍스트와 이미지 간 공통된 이해를 담당
  • $\text{TextExperts}(\text{Text Tokens})$: 텍스트만의 특별한 특성 (문법, 논리 등) 처리
  • $\text{VisionExperts}(\text{Vision Tokens})$: 이미지만의 특별한 특성 (공간, 색상 등) 처리

2.3 왜 비전 전문가를 1/3 크기로 만들었나?

이유 1: 시각 정보의 중복성

  • 이미지 토큰들은 서로 비슷한 정보를 많이 가지고 있음 (인접한 픽셀들이 유사)
  • 텍스트는 각 단어가 고유한 의미를 가짐

이유 2: 계산 효율성

  • FFN 계산량 = 입력 차원 × 중간 차원
  • 비전 전문가 중간 차원을 1/3로 하면 비전 토큰당 계산량이 66% 감소
\[\text{FLOPs}_{\text{vision}} = \text{num_vision_tokens} \times d_{\text{input}} \times \frac{d_{\text{intermediate}}}{3}\]

2.4 Modality-Isolated Routing 작동 원리

기존 문제점 멀티모달 데이터로 훈련할 때, 갑자기 데이터 분포가 바뀌면 (예: 텍스트만 있다가 이미지가 갑자기 많아짐) 라우터가 어떤 전문가를 선택해야 할지 혼란스러워 함.

ERNIE 4.5의 해결책

  1. 텍스트 라우터: 오직 텍스트 토큰만 보고 텍스트 전문가들 중 선택
  2. 비전 라우터: 오직 비전 토큰만 보고 비전 전문가들 중 선택

\(P_{\text{text}}(e_i \| x_{\text{text}}) = \text{Softmax}(\text{Router}_{\text{text}}(x_{\text{text}}))_i\) \(P_{\text{vision}}(e_j \| x_{\text{vision}}) = \text{Softmax}(\text{Router}_{\text{vision}}(x_{\text{vision}}))_j\)

  • \(P_{\text{text}}(e_i \| x_{\text{text}})\)$: 텍스트 입력 \(x_{\text{text}}\)가 주어졌을 때 텍스트 전문가 \(e_i\)를 선택할 확률
  • \(P_{\text{vision}}(e_j \| x_{\text{vision}})\): 비전 입력이 주어졌을 때 비전 전문가를 선택할 확률

3. 비전 처리: 적응형 해상도 시스템

3.1 기존 방식의 근본적 문제

고정 해상도의 문제점 대부분의 비전 모델은 224×224 같은 정사각형 입력을 요구하지만, 실제 이미지는 다음과 같음

  • 세로로 긴 이미지 (세로 사진, 웹페이지 스크린샷)
  • 가로로 긴 이미지 (파노라마, 차트)
  • 다양한 해상도

이를 억지로 정사각형으로 맞추면 이미지가 찌그러지거나 중요한 정보가 잘립니다.

3.2 ERNIE 4.5의 적응형 해상도 해결책

단계별 처리 과정

1단계: 원본 비율 보존 리사이징

  • 원본 이미지: 1920×1080 (16:9 비율) 패치 크기: 16×16
  • 목표: 패치 크기의 배수로 맞추기

계산

  • 가로: 1920 ÷ 16 = 120 → 120×16 = 1920 (그대로)
  • 세로: 1080 ÷ 16 = 67.5 → 68×16 = 1088 (약간 늘림)

    결과: 1920×1088 (원본 비율 거의 보존)

2단계: 2D RoPE로 위치 인코딩

RoPE (Rotary Position Embedding) RoPE는 토큰의 위치 정보를 회전 변환으로 인코딩

1D RoPE (텍스트용) \(\text{RoPE}(x, pos) = x \cdot \cos(pos \cdot \theta) + \text{rotate}(x) \cdot \sin(pos \cdot \theta)\)

2D RoPE (이미지용) \(\text{RoPE}_{2D}(x, i, j) = \text{RoPE}_{\text{height}}(x, i) \otimes \text{RoPE}_{\text{width}}(x, j)\)

  • $i$: 세로 위치 (몇 번째 행)
  • $j$: 가로 위치 (몇 번째 열)
  • $\otimes$: 두 RoPE 결과를 결합하는 연산

기하학적 의미

  • 모델이 “이 픽셀이 이미지의 왼쪽 위에 있다” 또는 “오른쪽 아래에 있다”는 정보를 정확히 알 수 있음
  • 가로세로 비율이 다른 이미지에서도 올바른 위치 정보 제공

3.3 비디오 처리: 시공간 통합

타임스탬프 렌더링의 혁신

기존 방법들은 비디오의 시간 정보를 다음과 같이 처리

  • Position embedding에 시간 차원 추가
  • 별도의 시간 토큰 삽입

ERNIE 4.5의 접근법 각 프레임의 왼쪽 위 모서리에 실제 타임스탬프를 그림으로 그려 넣습니다.

프레임 1: [00:01] 이미지 내용
프레임 2: [00:02] 이미지 내용  
프레임 3: [00:03] 이미지 내용

장점

  • 추가 토큰 소비 없음
  • 모델이 직접 시간을 ‘볼’ 수 있음
  • 임의의 프레임 레이트에 유연하게 대응

3D RoPE for Video 상세

\[\text{3D RoPE}(x, t, h, w) = \text{RoPE}_{\text{temporal}}(x, t) \otimes \text{RoPE}_{\text{height}}(x, h) \otimes \text{RoPE}_{\text{width}}(x, w)\]

각 차원의 주파수 할당

  • 시간축 (Temporal): 가장 낮은 주파수 (천천히 변함)
  • 공간축 (Height, Width): 높은 주파수들을 교대로 할당

직관적 의미

  • 시간은 천천히 바뀌므로 낮은 주파수로 인코딩
  • 공간은 빠르게 바뀔 수 있으므로 높은 주파수 사용
  • 이를 통해 모델이 “3초에 화면 왼쪽에서” 같은 시공간 정보를 정확히 파악

4. 핵심 수학적 최적화 기법

4.1 Router Orthogonalization Loss 상세 분석

근본 문제: 전문가 동질화

MoE에서 여러 전문가가 있어도 시간이 지나면서 비슷한 역할을 하게 되는 문제입니다.

  • 처음: 전문가A(수학), 전문가B(언어), 전문가C(논리)
  • 나중: 전문가A(수학+언어), 전문가B(수학+언어), 전문가C(수학+언어)

각주: 특히 위 내용을 판별하기 어려워지는 문제가 발생, 특히 주로 어려운 문제에 초점을 맞추면 일반화된 성능이 떨어지는 문제들이 발생해왔음.

ERNIE의 해결책: 직교성 강제

Router Orthogonalization Loss는 각 전문가의 라우터 가중치가 서로 수직이 되도록 강제

\[L_{\text{orth}} = \sum_{i=1}^{k} \sum_{j=1}^{k} \left\|\hat{w}_i^T \hat{w}_j - \delta_{ij}\right\|^2\]
  1. $w_i$: $i$번째 전문가를 위한 라우터 가중치 벡터
  2. $\hat{w}_i = \frac{w_i}{|w_i|_2}$: 정규화된 가중치 (길이를 1로 만듦)
  3. $\hat{w}_i^T \hat{w}_j$: 두 정규화된 벡터의 내적 (코사인 유사도)
  4. $\delta_{ij}$: 크로네커 델타
    • $i = j$일 때: $\delta_{ij} = 1$ (자기 자신과는 완전히 유사해야 함)
    • $i \neq j$일 때: $\delta_{ij} = 0$ (다른 전문가와는 완전히 다서야 함)

직관

  • 벡터가 정규화되었을 때 내적이 0이면 서로 수직 (완전히 다른 방향)
  • 내적이 1이면 같은 방향 (완전히 같음)
  • 이 손실함수는 서로 다른 전문가들이 수직이 되도록 강제

실제 효과 실험 결과 +1.44 성능 향상을 보였는데, 이는 각 전문가가 진짜로 다른 역할을 하게 되었기 때문이라고 연구진은 해석

4.2 Token-Balanced Loss 상세 분석

문제 상황 구체적 예시

멀티모달 훈련에서 다음과 같은 샘플들이 있다고 가정

샘플 1: [이미지 토큰 100개] + [텍스트 토큰 10개] → 텍스트 비율 9%
샘플 2: [이미지 토큰 20개] + [텍스트 토큰 80개] → 텍스트 비율 80%

기존 CrossEntropy Loss의 문제

\[L^{(i)} = -\frac{1}{|U_i|} \sum_{j \in U_i} \log P(y_j^{(i)} | y_{<j}^{(i)})\]

\(\|U_i\|\)는 텍스트 토큰 수

  • 샘플 1: $\frac{1}{10}$ 로 나누어짐 → 손실값이 큼
  • 샘플 2: $\frac{1}{80}$ 로 나누어짐 → 손실값이 작음

결과적으로 텍스트가 적은 샘플이 과도하게 큰 그래디언트를 만들어 훈련을 불안정하게 만들게 됨.

ERNIE 4.5의 Token-Balanced Loss

\[L_{\text{balanced}}^{(i)} = \frac{1}{|U_i| + |M_i|} \sum_{j \in U_i} \ell_j^{(i)}\]

개선점

  • 샘플 1: $\frac{1}{100 + 10} = \frac{1}{110}$ 로 나누어짐
  • 샘플 2: $\frac{1}{20 + 80} = \frac{1}{100}$ 로 나누어짐

이제 전체 시퀀스 길이로 정규화되어 각 샘플이 비슷한 크기의 그래디언트를 생성합니다.

  • \(\|U_i\|\): 마스크되지 않은 토큰 수 (loss 계산에 참여하는 텍스트 토큰)
  • \(\|M_i\|\): 마스크된 토큰 수 (loss 계산에 참여하지 않는 이미지 토큰)
  • \(\ell_j^{(i)} = -\log P(y_j^{(i)} \| y_{<j}^{(i)})\): 개별 토큰의 loss

5. EMA (Exponential Moving Average) 이론적 분석

5.1 EMA가 학습률 감소와 같다는 발견

전통적인 EMA 이해 \(\theta_{\text{EMA}}^t = \alpha \theta_{\text{EMA}}^{t-1} + (1-\alpha) \theta^t\)

이는 단순히 “이전 가중치와 현재 가중치의 가중평균”으로 이해되었습니다.

ERNIE 4.5의 새로운 해석

EMA를 펼치면

\[\theta_{\text{EMA}}^n = \theta_0 + \sum_{i=0}^{n-1} \eta_i^{(\alpha)} \delta_i\]
  • \(\delta_i = \theta_{i+1} - \theta_i\): $i$번째 스텝의 파라미터 업데이트
  • \(\eta_i^{(\alpha)} = 1 - \alpha^{n-i}\): $i$번째 업데이트에 적용되는 “효과적 학습률”

핵심 발견

\(\eta_i^{(\alpha)}\)를 자세히 보면

  • $i = n-1$ (가장 최근): $\eta_{n-1}^{(\alpha)} = 1 - \alpha^1 = 1 - \alpha$ (가장 작음)
  • $i = n-2$: $\eta_{n-2}^{(\alpha)} = 1 - \alpha^2$ (조금 더 큼)
  • $i = 0$ (가장 오래됨): $\eta_0^{(\alpha)} = 1 - \alpha^n$ (가장 큼, 거의 1에 가까움)

직관적 의미

최근 업데이트일수록 작은 가중치를, 오래된 업데이트일수록 큰 가중치를 받아 학습률을 점점 줄여가며 훈련하는 것과 같은 효과를 보이게 됨.

5.2 Effective Decay Window 제어

목표 원하는 크기 $\hat{W}$의 decay window를 만들고 싶을 때, 적절한 $\alpha$ 값을 찾기

수학적 유도

임계값 $\epsilon$ (예: 0.001)을 설정하고, 효과적 학습률이 이보다 작아지는 지점을 찾음.

\(\eta_j^{(\alpha)} = 1 - \alpha^{n-j} < 1 - \epsilon\) \(\alpha^{n-j} > \epsilon\) \((n-j) \log \alpha > \log \epsilon\)

\($\log \alpha < 0\)이므로 부등호가 변경

\[n-j < \frac{\log \epsilon}{\log \alpha}\]

$W = n-j$를 decay window 크기라 하면 \(W < \frac{\log \epsilon}{\log \alpha}\)

원하는 window 크기 $\hat{W}$에 대해 \(\hat{W} = \frac{\log \epsilon}{\log \alpha}\) \(\log \alpha = \frac{\log \epsilon}{\hat{W}}\) \(\alpha = \exp\left(\frac{\log \epsilon}{\hat{W}}\right)\)

실용적 적용

  • 전체 훈련 스텝을 100,000이라 하면
  • Decay window를 10,000 (마지막 10%)으로 설정
  • $\epsilon = 0.001$로 하면
  • $\alpha = \exp\left(\frac{\ln(0.001)}{10000}\right) \approx 0.9993$

6. Post-Training의 Progressive RL과 UPO

6.1 Progressive Reinforcement Learning (PRL) 상세

기존 RL의 문제점

한 번에 모든 종류의 태스크로 RL을 하면 모델이 혼란스러워하게 됨. 즉, 수학 문제를 풀다가 갑자기 창작 글쓰기를 해야 하면 어떤 스타일로 답해야 할지 모르게 됩니다.

PRL의 3단계 접근법

Stage 1: Logic Corpus

  • 순수한 논리 문제만 학습
  • 예: “A이면 B이고, B이면 C이다. A가 참이면 C는?”
  • 목표: 논리적 사고의 기초 다지기

Stage 2: Math & Coding

  • 수학과 프로그래밍 문제 학습
  • 예: “방정식을 풀어라”, “이 함수를 구현해라”
  • 목표: 구조적 정밀성과 실행 가능한 답변 능력

Stage 3: General Tasks

  • 모든 종류의 태스크
  • 목표: 앞서 학습한 논리성과 정밀성을 일반 상황에 적용

각 단계에서 정책 $\pi_i$를 학습하고, 다음 단계는 이전 정책을 초기값으로 사용

\[\pi_1 \rightarrow \pi_2 \rightarrow \pi_3\]

6.2 Unified Preference Optimization (UPO) 상세

기존 PPO의 한계

PPO는 다음 목표함수를 최적화하는데,

\[L_{\text{PPO}} = \mathbb{E}\left[\min\left(r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t\right)\right]\]
  • \(r_t(\theta) = \frac{\pi_\theta(a_t\|s_t)}{\pi_{\text{old}}(a_t\|s_t)}\): 정책 비율
  • \(\hat{A}_t\): advantage 추정값

문제점 절대적인 보상값에만 의존해서 “이 답이 좋다/나쁘다”만 학습할 수 있음.

DPO (Direct Preference Optimization) \(L_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right]\)

  • \(y_w\): 선호되는 답변 (winner)
  • \(y_l\): 선호되지 않는 답변 (loser)
  • \(\beta\): 온도 파라미터
  • \(\sigma\): 시그모이드 함수

UPO의 통합

\[L_{\text{UPO}} = L_{\text{PPO}} + \lambda L_{\text{DPO}}\]

직관적 의미

  • PPO: “이 답변은 높은 보상을 받았으니 좋은 답변이다”
  • DPO: “답변 A가 답변 B보다 더 선호된다”
  • UPO: 절대적 품질과 상대적 선호도를 동시에 학습

Online vs Offline UPO

Online UPO 각 RL 반복에서 여러 답변을 생성하고 rejection sampling으로 선호 쌍 구성

질문: "2+2는?"
생성된 답변들: ["4", "4.0", "2+2=4", "사과"] 
Rejection sampling: ("4", "사과") 쌍 선택 → "4"가 더 선호됨

Offline UPO

RL 훈련 전에 미리 모든 선호 데이터 생성하고 저장

7. 양자화 기술: W4A8과 CCQ

7.1 W4A8 Quantization 상세 원리

기본 아이디어

  • Weights: 4-bit로 저장 (16개 값만 표현 가능)
  • Activations: 8-bit로 계산 (256개 값 표현 가능)

Fast Bit-Shift Conversion 과정

1단계: Range 제한

원래 INT4 범위: [-8, -7, -6, ..., 6, 7]  (16개 값)
제한된 범위: [-7, -6, -5, ..., 5, 6, 7]  (15개 값)

왜 -8을 제외? 대칭성을 위해서 (양수와 음수 개수 맞춤)

2단계: Bit-Shift 변환

INT4 값: 3
4비트 왼쪽 시프트: 3 << 4 = 3 × 16 = 48

모든 INT4 값에 적용

INT4: [-7, -6, -5, ..., 6, 7]
INT8: [-112, -96, -80, ..., 96, 112]

3단계: Scale 적용

실제 가중치 값으로 변환

실제_값 = INT8_값 × scale_factor

Weight Layout Optimization

Tensor Core를 효율적으로 사용하기 위해 가중치를 특별한 순서로 배열

원래 순서: [w0, w1, w2, w3, w4, w5, w6, w7]
Interleaved: [w0, w4, w1, w5, w2, w6, w3, w7]

이렇게 하면 8개 값을 3개 명령어로 변환 가능 (효율성 대폭 향상)

7.2 Convolutional Code Quantization (CCQ) 혁신

기존 2-bit 양자화의 문제

  • Scalar 방식: 간단하지만 정확도 크게 하락
  • Vector 방식: 정확도는 좋지만 lookup table 때문에 속도 느림

CCQ의 접근

1. Convolutional Codebook

전통적인 Vector Quantization은 다음과 같이 작동

입력 벡터 → 코드북에서 가장 가까운 벡터 찾기 → 인덱스 저장
복원할 때: 인덱스 → 코드북 lookup → 벡터 복원

CCQ는 Convolutional Code를 사용하여 lookup 없이 선형 매핑 구현

입력 벡터 → Convolutional encoding → 압축된 표현
복원할 때: 압축된 표현 → 선형 변환 → 벡터 복원

2. Hybrid Encoding

4-bit 양자화를 2.75-bit로 압축: INT8 형식 사용
3-bit 양자화를 2.5-bit로 압축: INT16 형식 사용

3. Code Clustering

인코딩된 값들이 정규분포를 따른다는 관찰에 기반

인코딩된 값들: [v1, v2, v3, ..., vn]
클러스터링: {cluster1, cluster2, cluster3, cluster4}
최종 표현: 2-bit (4개 클러스터 중 하나)

전체 프로세스

원본 가중치 → Convolutional Encoding → Hybrid Encoding → Code Clustering → 2-bit 표현
복원: 2-bit → 클러스터 ID → 인코딩된 값 → 선형 변환 → 원본 가중치

수학적 표현 원본 벡터 $\mathbf{w}$를 2-bit로 압축

Convolutional Encoding

\[\mathbf{c} = \text{ConvEncode}(\mathbf{w})\]

Clustering

\[\text{cluster_id} = \arg\min_k \|\mathbf{c} - \mathbf{centroid}_k\|^2\]

2-bit 저장

\[\text{2bit_repr} = \text{cluster_id} \in \{0, 1, 2, 3\}\]

복원 과정

\[\hat{\mathbf{w}} = \text{LinearTransform}(\mathbf{centroid}_{\text{cluster_id}})\]

성능 비교

  • 저장 공간: BF16 대비 80% 감소
  • 정확도 손실: 거의 무손실 (multiple benchmarks에서 FP8와 비슷한 성능)
  • 계산 속도: Scalar quantization과 비슷한 속도

8. 훈련 프레임워크: 시스템 최적화

8.1 Heterogeneous Parallelism 상세 분석

근본적 도전과제

ERNIE 4.5는 두 개의 매우 다른 구성요소를 가지고 있음

  • ViT 인코더: 630M 파라미터 (상대적으로 작음)
  • MoE 백본: 424B 파라미터 (매우 큼)

이 둘을 효율적으로 함께 훈련하는 것은 마치 자전거와 기차를 함께 운행하는 것과 같습니다.

해결책: 이종 병렬화

ViT 인코더 처리 전략

모든 GPU에 ViT 인코더 복사 (작으니까 가능)
각 GPU가 독립적으로 이미지 처리
결과를 MoE의 첫 번째 단계로 모음

MoE 백본 처리 전략

하이브리드 병렬화
- Expert Parallelism (EP): 전문가들을 여러 GPU에 분산
- Pipeline Parallelism (PP): 레이어들을 여러 GPU에 분산  
- Tensor Parallelism (TP): 큰 행렬을 여러 GPU에 분산

Forward Pass 상세 과정

  1. 각 GPU에서 독립적 비전 처리
GPU 0: 이미지 배치 [0, 4, 8, ...] → 비전 특징
GPU 1: 이미지 배치 [1, 5, 9, ...] → 비전 특징  
GPU 2: 이미지 배치 [2, 6, 10, ...] → 비전 특징
GPU 3: 이미지 배치 [3, 7, 11, ...] → 비전 특징
  1. MoE 첫 번째 단계로 수집
모든 비전 특징을 GPU 0 (PP stage 0)으로 gather
GPU 0이 텍스트 토큰과 비전 토큰을 합쳐서 처리 시작
  1. 파이프라인을 통한 전파
GPU 0 (PP stage 0) → GPU 1 (PP stage 1) → ... → GPU N (PP stage N-1)

Backward Pass의 복잡성

파이프라인 역전파가 끝나면 ViT 인코더의 그래디언트를 계산해야 하는데, 문제는 자동 미분이 MoE 백본에서 끝나고 ViT까지 이어지지 않는다는 점입니다.

해결책

  1. 그래디언트 분산 MoE 첫 번째 단계에서 모든 비전 특징 그래디언트를 각 GPU로 분산
  2. 독립적 역전파 각 GPU가 자신의 ViT 인코더에서 역전파 수행
  3. 그래디언트 동기화 모든 GPU에서 ViT 파라미터 그래디언트를 AllReduce로 합산

수학적 표현

\[\frac{\partial L}{\partial \theta_{\text{ViT}}} = \text{AllReduce}\left(\sum_{\text{local}} \frac{\partial L}{\partial \mathbf{v}_i} \frac{\partial \mathbf{v}_i}{\partial \theta_{\text{ViT}}}\right)\]
  • $\mathbf{v}_i$: $i$번째 비전 특징
  • $\theta_{\text{ViT}}$: ViT 인코더 파라미터

8.2 Hierarchical Load Balance Strategy

문제 상황

가변 해상도 이미지와 다양한 길이의 비디오로 인해 GPU마다 계산량이 크게 달라집니다.

구체적 예시

GPU 0: [고해상도 이미지 1개, 토큰 1000개] → 과부하
GPU 1: [저해상도 이미지 5개, 토큰 500개] → 여유
GPU 2: [긴 비디오 1개, 토큰 2000개] → 극도로 과부하  
GPU 3: [짧은 비디오 3개, 토큰 300개] → 매우 여유

Level 1: Coarse-grained Load Balance

단계별 과정

  1. 모든 packed sequence 수집 및 정렬
Sequence A: 100 토큰
Sequence B: 500 토큰  
Sequence C: 200 토큰
Sequence D: 800 토큰

정렬 후: [A(100), C(200), B(500), D(800)]
  1. Round-robin 분배
GPU 0: A(100) + D(800) = 900 토큰
GPU 1: C(200) + B(500) = 700 토큰
총 토큰 수가 비슷해짐

Level 2: Fine-grained Dynamic Balanced Partitioning

Packed Sequence Parallelism (PSP)

기존 Sequence Parallelism은 모델 파라미터를 나누었지만, PSP는 sequence를 나눕니다.

원본 packed sequence: [토큰1, 토큰2, ..., 토큰100]
GPU 0이 받은 부분: [토큰1, 토큰2, ..., 토큰25]
GPU 1이 받은 부분: [토큰26, 토큰27, ..., 토큰50]  
GPU 2가 받은 부분: [토큰51, 토큰52, ..., 토큰75]
GPU 3이 받은 부분: [토큰76, 토큰77, ..., 토큰100]

Attention 연산에서의 특별 처리

Attention은 전체 시퀀스를 봐야 하므로 특별한 처리가 필요

Attention 계산 전
All-to-all communication으로 시퀀스 길이와 attention head 차원 교환

GPU 0: [25 토큰, head 0] → [100 토큰, head 0의 1/4]
GPU 1: [25 토큰, head 1] → [100 토큰, head 1의 1/4]  
GPU 2: [25 토큰, head 2] → [100 토큰, head 2의 1/4]
GPU 3: [25 토큰, head 3] → [100 토큰, head 3의 1/4]

Attention 계산 후
다시 all-to-all로 원래 분할 방식으로 복원

성능 향상 이 계층적 로드 밸런싱으로 32% 전체 성능 향상을 달성

8.3 Zero Cost Checkpoint (ZCC) 혁신

기존 체크포인트의 문제

훈련 중단 → 체크포인트 저장 (몇 분 소요) → 훈련 재개

대규모 모델에서는 체크포인트 저장에 많은 시간이 걸려 훈련 효율성이 떨어집니다.

ZCC의 핵심 관찰

파라미터와 옵티마이저 상태는 옵티마이저가 실행되는 순간에만 바뀝니다.

훈련 스텝 구조
1. Forward pass (파라미터 변화 없음)
2. Backward pass (파라미터 변화 없음)  
3. Communication (파라미터 변화 없음)
4. Optimizer step (파라미터 변화!)

ZCC 구현 전략

훈련 프레임워크 측면

충돌 연산과 비충돌 연산 분류

충돌 연산: 노드 간 통신 (Pipeline send/receive, ViT gather/scatter)
비충돌 연산: Attention, Dense FFN, 노드 내 통신

DtoH (Device to Host) 복사 최적화

충돌 연산 중: DtoH 복사 중단
비충돌 연산 중: DtoH 복사 수행 (PCIe 버스 공유 안 함)

세밀한 분해

큰 파라미터 텐서를 작은 청크로 나누어
비충돌 연산 시간에 맞춰 조금씩 복사


클러스터 측면

장애 노드 감지 시 즉시 대응

장애 감지 → 모든 건강한 NIC 활용 → 적응적 대역폭 최대화
→ 최신 메모리 체크포인트를 새 건강한 노드로 RDMA P2P 전송

복구 연산과 전송 오버랩

메모리 체크포인트 전송과 동시에
- 새 노드 환경 초기화
- 네트워크 설정  
- 소프트웨어 로딩
모든 과정이 병렬로 진행됨

수학적 성능 모델

\[T_{\text{recovery}} = \max(T_{\text{transfer}}, T_{\text{initialization}})\]

기존에는 두 시간이 순차적으로 더해졌지만, 이제는 더 긴 시간 하나만 소요됩니다.

실제 성능

  • 종단간 자동 복구 시간: 8분 미만
  • 10,000-GPU 클러스터에서 98% 이상 효과적 훈련 시간 유지

9. 실험 결과 및 핵심 발견

9.1 언어 모델 성능 분석

Pre-trained Models 성과

ERNIE-4.5-300B-A47B-Base vs DeepSeek-V3-671B-A37B-Base

  • 28개 벤치마크 중 22개에서 승리
  • 더 적은 파라미터로 더 좋은 성능 (효율성 우수)

특별히 뛰어난 영역

  • 중국어 태스크: CMMLU 91.2% vs 88.2%, ChineseSimpleQA 72.2% vs 64.8%
  • 지식 기반 QA: 반복적 데이터 개선과 고품질 합성 데이터의 효과

ERNIE-4.5-21B-A3B-Base의 파라미터 효율성

ERNIE 4.5 (21B 총 파라미터) vs Qwen3 (30B 총 파라미터)
= 70% 크기로 동등하거나 더 나은 성능

특히 BBH(77.5% vs 72.7%)와 CMATH(93.7% vs 88.9%)에서 뛰어난 성능을 보였습니다.

Post-trained Models 성과

지시 따르기 능력

  • IFEval: 88.0% (경쟁 모델들: 82.3~87.4%)
  • Multi-IF: 76.6% (경쟁 모델들: 66.9~70.8%)

지식 정확성

  • SimpleQA: 45.9% (GPT-4.1: 40.2%, DeepSeek-V3: 27.3%)
  • ChineseSimpleQA: 77.1% (다른 모델들 대비 압도적)

핵심 발견: Unified Rewarding System의 정교한 설계가 지시 따르기와 지식 활용 능력을 크게 향상시켰습니다.

9.2 멀티모달 성능의 결과

Non-Thinking Mode 우수성

시각적 인지 능력

  • CountBench: 93.3% (경쟁 모델 중 최고)
  • CV-Bench: 85.5%
  • RealWorldQA: 75.2%

문서/차트 이해

  • OCRBench: 883 (OpenAI-o1: 761)
  • DocVQA: 94.3% (OpenAI-o1: 81.0%)
  • ChartQA: 86.4% (OpenAI-o1: 80.4%)

비디오 분석

  • VideoMME w/subs: 79.7%
  • LongVideoBench: 66.2%

기술적 혁신의 효과: 타임스탬프 렌더링과 적응형 해상도 처리가 비디오 이해 능력을 크게 향상시켰습니다.

Thinking Mode의 추론 능력

수학적 추론

  • MathVista: 78.9% (thinking) vs 74.9% (non-thinking)
  • 약 4% 포인트 향상으로 사고 과정의 명시적 모델링 효과 입증

복합 추론

  • MMMU: 67.3% (thinking) vs 58.9% (non-thinking)
  • VisualPuzzle: 41.0% (thinking) vs 34.6% (non-thinking)

상호 향상 효과 흥미롭게도, thinking과 non-thinking 모드의 공동 훈련이 두 모드 모두를 향상시켰는데, 이는 서로 다른 추론 스타일이 상호 보완적으로 작용함을 의미합니다.

9.3 시스템 성능: 실용적 배포의 혁신

훈련 효율성

  • MFU (Model FLOPs Utilization): 47% (2016개 H800 GPU)
  • 이는 이론적 최대 계산량의 거의 절반을 실제로 활용한다는 의미

추론 성능

  • 입력 처리량: 56k TPS per H800 노드
  • 출력 생성량: 18k TPS per H800 노드
  • 지연시간: 50ms TPOT 제약 하에서 달성

배포 접근성

최대 모델 배포 옵션
- 8개 GPU (8-bit 파라미터)
- 4개 GPU (4-bit 파라미터)  
- 1개 GPU (2-bit 파라미터, 141GB H20)

장애 허용성

  • 10,000-GPU 클러스터에서 98% 효과적 훈련 시간
  • 평균 복구 시간: 8분 미만

10. 종합 분석: 혁신의 의미

10.1 아키텍처 혁신의 파급효과

Heterogeneous MoE의 패러다임 전환 기존의 “모든 모달리티를 똑같이 처리”하는 방식에서 “각 모달리티의 특성을 살리면서 협력”하는 방식으로의 전환입니다.

수학적 우아함 Router Orthogonalization Loss와 Token-Balanced Loss는 단순해 보이지만, 멀티모달 학습의 근본적 문제들을 해결하는 우아한 솔루션입니다.

실용적 영향 이론적 개선이 실제 성능 향상으로 직결되었습니다 (28개 벤치마크 중 22개에서 승리).

10.2 시스템 최적화의 혁신성

Zero Cost Checkpoint 단순한 아이디어이지만 대규모 훈련의 실용성을 근본적으로 바꾸었습니다. 98% 효과적 훈련 시간은 이전에는 불가능했던 수준입니다.

Hierarchical Load Balancing 멀티모달 훈련의 근본적 도전과제였던 가변 길이 처리를 체계적으로 해결했습니다.

FP8과 양자화 혁신 CCQ 2-bit 양자화는 이론적 우아함과 실용적 효과를 모두 달성한 사례입니다.

10.3 미래 연구에 대한 시사점

모달리티별 전문화 패러다임 ERNIE 4.5의 성공은 미래 멀티모달 모델이 모달리티별 전문화와 cross-modal 협력의 균형을 찾아야 함을 시사합니다.

Progressive Learning의 중요성 PRL의 성공은 복잡한 능력을 단계적으로 구축하는 것이 효과적임을 보여줍니다.

시스템과 알고리즘의 통합 설계 ERNIE 4.5는 알고리즘 혁신과 시스템 최적화가 통합적으로 설계될 때 시너지 효과가 극대화됨을 보여주는 사례입니다.

Recap

1. 개요 및 배경

1.1 ERNIE 4.5 모델 패밀리 소개

ERNIE 4.5는 Baidu에서 개발한 대규모 멀티모달 AI 모델 패밀리로, 텍스트, 이미지, 비디오를 통합적으로 처리할 수 있는 능력을 갖추고 있습니다. 이 모델 패밀리는 10개의 서로 다른 변형으로 구성되어 있으며, Mixture-of-Experts (MoE) 아키텍처를 기반으로 합니다.

모델 구성

  • MoE 모델: 47B와 3B 활성 파라미터
  • 최대 424B 총 파라미터 (최대 모델)
  • Dense 모델: 0.3B 파라미터
  • 모든 모델이 Apache 2.0 라이선스로 공개

1.2 주요 목표와 도전과제

현재 멀티모달 AI 모델 개발에서 직면하는 주요 도전과제는 다음과 같습니다:

  1. 서로 다른 모달리티 간의 효율적인 정보 통합
  2. 대규모 모델의 안정적인 훈련
  3. 추론과 일반적인 이해 능력의 균형
  4. 실용적인 배포와 추론 효율성

핵심 인사이트: ERNIE 4.5는 기존의 단순한 모달리티 융합 방식과 달리, 각 모달리티에 특화된 전문가(expert)와 공유 전문가를 분리하여 모달리티 간 간섭을 최소화하면서도 상호 학습을 가능하게 만듦.

2. 아키텍처 혁신

2.1 Heterogeneous MoE 아키텍처

ERNIE 4.5의 가장 핵심적인 혁신은 Heterogeneous MoE 구조입니다. 기존의 MoE 모델들이 단일 모달리티에 최적화되어 있었다면, ERNIE 4.5는 멀티모달 환경에서의 MoE를 재설계했습니다.

구조적 특징

  • 텍스트 전문가 (Text Experts): 텍스트 토큰만 처리
  • 비전 전문가 (Vision Experts): 비전 토큰만 처리, 텍스트 전문가 파라미터의 1/3 크기
  • 공유 전문가 (Shared Experts): 모든 모달리티의 토큰 처리
  • Self-Attention: 모든 토큰에 대해 공유

수식적 표현 \(\text{MoE Output} = \text{SharedExperts}(\text{AllTokens}) + \text{ModalityExperts}(\text{SpecificTokens})\)

다른 연구와의 차이점: 기존 연구들(Wang et al., Lin et al.)과 달리, ERNIE 4.5는 attention 레이어는 dense하게 유지하면서 FFN 레이어에서만 MoE 라우팅을 적용하여 cross-modal interaction을 보존합니다.

모달리티 분리 라우팅 전략 멀티모달 훈련에서 MoE 라우터는 데이터 분포의 급격한 변화로 인해 불안정해질 수 있습니다. ERNIE 4.5는 이를 해결하기 위해 modality-isolated routing을 제안합니다.

2.2 비전 인코더 설계

적응형 해상도 변환 기존의 ViT가 고정된 정사각형 입력을 요구했던 것과 달리, ERNIE 4.5는 이미지의 원본 종횡비를 최대한 보존합니다.

  • 높이와 너비를 독립적으로 ViT 패치 크기의 배수로 리사이징
  • 2D Rotary Position Embedding (RoPE) 적용
  • 이미지 패킹 기술로 배치 효율성 향상

비디오 처리 비디오는 프레임 시퀀스로 처리되지만, 시퀀스 길이 제약과 시간적 커버리지 문제를 해결하기 위해 적응형 비디오 샘플링 전략을 사용합니다.

  • 비디오 지속시간과 가용 시퀀스 길이에 따른 동적 프레임/해상도 조정
  • 타임스탬프 렌더링: 각 프레임에 절대 타임스탬프를 오버레이하여 시간적 이해 향상

핵심 인사이트: 타임스탬프 렌더링은 position embedding이나 텍스트 토큰 기반 시간 인코딩과 달리, 추가 토큰 소비 없이 명시적인 시간적 단서를 제공합니다.

2.3 어댑터와 멀티모달 Position Embedding

어댑터 설계 비전과 텍스트 표현을 통합 임베딩 공간으로 정렬하기 위한 모달리티 브리징 모듈입니다.

  • 공간 압축: 2×2 패치의 4배 토큰 수 감소
  • 시간 압축: 시퀀스 길이 2배 감소
  • 픽셀 셔플 기법으로 특징 융합

3D RoPE 텍스트, 이미지, 비디오의 통합 처리를 위한 3차원 위치 임베딩 체계

\[\text{3D RoPE}: \text{temporal, height, width 축에 대한 독립적 주파수 할당}\]

3. Pre-Training 전략

3.1 데이터 구성과 품질 관리

ERNIE 4.5의 pre-training은 대규모 텍스트 및 멀티모달 데이터셋을 기반으로 하며, 포괄적인 데이터 품질 필터링 파이프라인을 구현합니다.

데이터 소스

  • 웹 페이지, 학술 논문, 문서
  • 이미지, 비디오
  • 합성 모달리티 변환 데이터

품질 관리 프로세스

  1. 데이터 노이즈 제거 및 합성: 휴리스틱 + 모델 기반 필터링
  2. 데이터 분석: 언어, 지식, 응용, 품질 측면에서 분류
  3. Human-Model-in-the-Loop 데이터 개선: 지속적인 품질 향상

지식 기반 데이터 DIKW(Data-Information-Knowledge-Wisdom) 프레임워크에 영감을 받아 5개 지식 레벨로 분류하고, 고가치 데이터의 희소성을 해결하기 위해 key-point 기반 데이터 합성 방법을 적용합니다.

3.2 REEAO: Bitwise-Deterministic Pre-Training Data Manager

핵심 혁신: REEAO(Record Everything Everywhere All at Once)는 대규모 훈련에서 발생하는 데이터 중복이나 누락 문제를 해결하는 데이터 플로우 매니저입니다.

5가지 핵심 원칙

  • Reproducibility: 재현가능성
  • Efficiency: 효율성
  • Elasticity: 탄력성
  • Adaptivity: 적응성
  • Observability: 관찰가능성

REEAO는 훈련 노드 수, 분산 전략, 글로벌 배치 크기, 컨텍스트 길이 변화에도 bitwise-deterministic 토큰 시퀀스를 보장합니다.

3.3 단계별 Pre-Training Recipe

Stage I: Text-Only Training

Short-Context 단계

  • 수조 개의 순수 텍스트 토큰으로 대규모 pre-training
  • 8K 시퀀스 길이에서 핵심 언어 능력 개발

Long-Context 단계

  • RoPE 주파수 베이스 조정: 10K → 160K → 500K
  • 시퀀스 길이 확장: 32K → 128K
  • 16K 이상 문서의 업샘플링

Stage II: Vision-Only Training

Vision Encoder 단계

  • 소규모 언어 모델과 함께 비전 인코더 pre-training
  • 대규모 이미지-텍스트 쌍 데이터셋 활용

Vision Pre-Alignment 단계

  • LLM 파라미터 동결
  • 비전 어댑터, 비전 전문가, 비전 라우터 훈련
  • 비전 전문가는 텍스트 전문가에서 구조적 프루닝으로 초기화

Vision Integration 단계

  • 비전 인코더 해제하여 전체 비전 경로 공동 최적화

Stage III: Joint Multimodal Training

Short-Context Multimodal

  • 전체 모델 해제하여 텍스트, 이미지, 비디오 혼합 데이터로 훈련

Long-Context Multimodal

  • 128K 컨텍스트 길이로 확장

3.4 모델 최적화 기법

Router Orthogonalization Loss MoE 모델의 전문가 동질화 문제를 해결하기 위해 라우터 가중치 간 직교성을 촉진합니다.

\[L_{orth} = \sum_{i=1}^{k} \sum_{j=1}^{k} \|\hat{w}_i^T \hat{w}_j - \delta_{ij}\|^2\]

여기서 $\hat{w}i = \frac{w_i}{|w_i|_2}$이고, $\delta{ij}$는 크로네커 델타입니다.

기술적 세부사항: 이 손실은 Adam 옵티마이저의 그래디언트 추정을 방해하지 않도록 AdamW와 유사한 방식으로 라우터 가중치를 직접 업데이트합니다.

Token-Balanced Loss 멀티모달 훈련에서 텍스트 토큰만 손실에 기여하므로, 샘플 간 텍스트 토큰 비율 차이로 인한 그래디언트 분산을 줄입니다.

\[L_{balanced}^{(i)} = \frac{1}{|U_i| + |M_i|} \sum_{j \in U_i} \ell_j^{(i)}\]

여기서 $U_i$는 마스크되지 않은 영역, $M_i$는 마스크된 영역입니다.

3.5 Exponential Moving Average (EMA) 분석

이론적 인사이트: EMA를 학습률 감소의 관점에서 분석하여, EMA가 파라미터 업데이트에 지수적 가중치를 적용하는 것을 보입니다.

EMA 파라미터는 다음과 같이 표현

\[\theta_{EMA}^n = \theta_0 + \sum_{i=0}^{n-1} \eta_i^{(\alpha)} \delta_i\]

여기서 $\eta_i^{(\alpha)} = 1 - \alpha^{n-i}$는 효과적 학습률입니다.

Effective Decay Window 제어 원하는 decay window 크기 $\hat{W}$에 대해 적절한 EMA decay coefficient를 선택할 수 있습니다:

\[\hat{\alpha} = \exp\left(\frac{1}{\hat{W}} \log \epsilon\right)\]

4. Post-Training 과정

4.1 Language Models Post-Training

Supervised Fine-Tuning 2.3M 샘플로 구성된 데이터셋을 10개 도메인으로 체계적으로 분류합니다:

  • 과학/수학, 코딩, 논리, 정보처리, 창작, 다국어, 지식 QA, 멀티턴/역할놀이, 안전성

추론과 비추론 태스크로 분리하여, 추론 데이터에는 복잡한 사고 연쇄(CoT)가 필요한 태스크를, 비추론 데이터에는 정확성과 간결성이 중요한 태스크를 포함합니다.

Unified Rewarding System 추론과 비추론 태스크에 대해 서로 다른 리워드 조합을 사용합니다.

추론 태스크:

  • Rule-based LLM (RLLM): 참조 답안 기반 평가
  • Sandbox: 프로그래밍 태스크의 격리된 실행 환경
  • Reference-Guided Discriminative Reward Model (RDRM): 참조 답안 가이드 점수 산정

비추론 태스크:

  • Checklist-Aware Verifiers: 명시적 기준 정의 및 평가
  • Generative Reward Models (GRM): 다차원 평가 기준과 동적 피드백
  • Discriminative Reward Models (DRM): 전통적 RL 프레임워크

Progressive Reinforcement Learning (PRL) 3단계 강화학습 알고리즘으로 구성됩니다:

  1. 논리 단계: 논리 코퍼스로만 훈련하여 논리적 분석과 추상적 추론의 기초 구축
  2. 수학/프로그래밍 단계: 구조적 표현력과 실행 정밀도가 요구되는 태스크로 확장
  3. 일반 단계: 추론/비추론 태스크를 포함한 일반 데이터셋으로 일반화

Unified Preference Optimization (UPO) 기존 PPO의 단일 응답 최대화 방식과 달리, 쌍별 비교 신호를 통합합니다:

\[L_{UPO} = L_{PPO} + L_{DPO}\]

다른 연구와의 차이점: UPO는 온라인/오프라인 버전으로 구분되며, 온라인 UPO는 각 RL 반복에서 rejection sampling으로 선호 쌍을 구성하고, 오프라인 UPO는 RL 훈련 전에 모든 선호 데이터를 미리 생성합니다.

4.2 Vision-Language Models Post-Training

Supervised Fine-tuning 프레임워크 이미지 이해와 추론 능력 강화를 위한 3단계 프로세스입니다.

데이터 구성 VLM이 기초적인 지각적 이해에서 어려움을 겪는다는 관찰에 기반하여, 고품질 지각 데이터를 합성합니다:

  1. 프로그래밍적 퍼즐, 기하학적 도형, 수학 함수 생성
  2. 실제 STEM 이미지에 대한 세밀한 캡션 합성

캡션을 제약 최적화 문제로 공식화하여, 텍스트 전용 추론 모델이 시각적 입력 없이도 관련 질문을 해결할 수 있는 이미지 설명을 생성합니다.

Thinking and Non-Thinking Joint Training

Step 1: Text-only Reasoning Cold Start

  • 수학, 과학, 코드 생성, 지시 따르기, 대화를 포함한 다양한 텍스트 전용 추론 데이터 수집
  • Agent 기반 및 규칙 기반 필터로 결함 있는 논리 제거

흥미로운 발견: 텍스트 데이터로만 훈련했음에도 불구하고, 모델이 “이미지를 다시 살펴보겠습니다”와 같은 멀티모달 추론 행동을 나타냅니다.

Step 2: Reject Sampling for Multimodal Enhancement

  • Step 1 모델을 기반으로 STEM, 차트 분석, 문서 이해, 창작에 대한 추론 데이터 생성
  • 검증 가능한 리워드 메커니즘을 통한 체계적 품질 보장

Step 3: Thinking and Non-Thinking Fusion 두 가지 접근법 사용

  1. 혼합 훈련: 비추론 데이터에 빈 thinking 태그 <think>\n\n</think> 추가
  2. 전문가 병합: 비추론 모델의 멀티모달 전문가를 추론 모델로 전송

Reinforcement Learning with Verifiable Rewards (RLVR)

Visual STEM: 정답이 있는 이미지 기반 질문으로 RLVR에 적합 Visual Puzzles: 패턴 인식과 그래프 추론이 포함된 10K 이상의 시각적 퍼즐 UI2Code: UI 디자인 이미지에서 HTML 코드 생성

평가 방법의 혁신: 기존의 \boxed{} 형식 매칭 대신, 두 개의 LLM을 사용하여 응답의 내부 일관성과 최종 답안의 정확성을 별도로 평가합니다.

Hybrid Reinforcement Learning RLVR과 RLHF를 통합한 통합 강화학습 프레임워크를 설계하여, 추론과 일반 능력 모두에서 우수한 성능을 달성합니다.

5. Training Framework 최적화

5.1 Heterogeneous Parallelism for Multimodal Model Training

ERNIE 4.5의 멀티모달 특성과 대규모 MoE 아키텍처는 분산 훈련에서 상당한 시스템적 도전을 제시합니다.

핵심 도전과제

  • ViT 인코더(630M 파라미터)와 MoE 백본(424B 파라미터) 간 규모 차이
  • 서로 다른 계산 복잡도와 메모리 요구사항
  • 가변 해상도 훈련에서의 로드 밸런싱

Heterogeneous Parallelism Architecture ViT 인코더는 모든 디바이스에 복제되고, MoE 백본의 하이브리드 병렬성 토폴로지 내에서 데이터 병렬성 차원이 중첩됩니다.

Forward Pass

각 디바이스의 ViT 인코더가 비전 특징을 독립적으로 계산
→ MoE 백본의 첫 번째 파이프라인 단계로 수집
→ 파이프라인 병렬성 단계를 통한 순방향 전파

Backward Pass

MoE 백본의 역방향 전파 완료
→ 비전 특징 그래디언트를 각 파이프라인 단계로 분산
→ ViT 인코더에서 표준 자동 미분 역방향 전파
→ 모든 디바이스에서 ViT 파라미터 그래디언트 all-reduce 동기화

Hierarchical Load Balance Strategy

Level 1: Coarse-grained Load Balance

  • 토큰 수에 따라 모든 packed sequence를 오름차순 정렬
  • Round-robin 분할 알고리즘으로 각 디바이스에 분배하여 총 토큰 수 균형 맞춤

Level 2: Fine-grained Dynamic Balanced Partitioning

  • Attention 외부: Packed Sequence Parallelism (PSP) 전략 사용
  • Attention 내부: 시퀀스 길이와 attention head 차원을 교환하는 all-to-all 통신

성능 향상: 계층적 로드 밸런싱 전략으로 ERNIE-4.5-VL-424B-A47B-Base는 로드 밸런싱 없는 기준선 대비 최대 32% 종단간 멀티모달 훈련 성능 향상을 달성했습니다.

5.2 Hybrid Parallelism for MoE Backbone

Intra-Node Expert Parallelism 비용이 많이 드는 노드 간 전문가 병렬성 통신을 피하기 위해 모델 아키텍처와 구성을 설계했습니다.

기존 MoE 구현과 달리, gate probability 곱셈 연산자를 전문가 계산 블록 내부로 재배치하여 두 번째 all-to-all 출력 텐서를 소비 후 즉시 해제할 수 있게 합니다.

Memory-Efficient Pipeline Scheduling 대규모 클러스터 훈련에서 고정된 글로벌 배치 크기를 유지하면서 그래디언트 축적 단계를 줄이면 파이프라인 버블 시간 비율이 증가합니다.

메모리 효율적 가상 파이프라인 스케줄링

  • 마지막 파이프라인 단계가 손실 함수의 순방향 계산을 완료하면 즉시 역방향 계산 시작
  • 손실 함수의 활성화 메모리를 즉시 해제
  • F-then-B 스케줄링에서 파라미터 그래디언트 해제 기법 도입

5.3 FP8 Mixed Precision Training

ERNIE 4.5는 DeepSeek-V3와 유사한 양자화 전략을 MoE FFN 모듈에 적용하여, E4M3 FP8 수치 형식을 사용합니다.

Fine-Grained Memory Optimization

  1. Up-gate Linear: BF16 텐서 대신 FP8 입력 활성화 $X_{FP8}$ 보존
  2. Down Linear: 두 가지 옵션 제공 - BF16 출력 텐서 보존 또는 $X_{FP8}$를 사용한 재계산

FP8 Quantization Operator Fusion

  • 순방향 전파에서 순열과 FP8 양자화 융합
  • 순방향 및 역방향 전파에서 SwiGLU, gate probability 곱셈, FP8 양자화 융합

FP8 Communication Optimization

  • 순방향 전파: 첫 번째 all-to-all 통신을 FP8 정밀도로 수행
  • 역방향 전파: 두 번째 all-to-all 통신을 up-gate linear 가중치 그래디언트 계산과 오버랩

5.4 Computational Optimizations

Operator-Level Recomputation 기존의 모듈 레벨 재계산과 달리, ERNIE 4.5는 연산자 레벨 재계산 전략을 채택하여 메모리와 계산 간의 더 세밀한 균형을 제공합니다.

# 기존 방식의 문제점
y1 = op1(x)  # y1을 보존해야 함
y2 = op2(y1) # y1이 재계산될 예정인데도 보존
y3 = op3(y2)

# ERNIE 4.5의 해결책
y1 = op1(x)
y2 = OperatorLevelRecomputation()(op2, y1)  # op2의 출력만 보존
y3 = op3(y2)

FlashMask for Flexible Attention ERNIE 4.5 멀티모달 pre-training에서 요구되는 다양한 attention mask를 수용하기 위해 FlashMask를 제안합니다. 메모리 복잡도를 $O(N^2)$에서 $O(N)$으로 감소시킵니다.

5.5 Framework-Native Fault Tolerance System

대규모 GPU 클러스터 사용으로 인한 높은 장애 중단율을 완화하기 위해 모델, 프레임워크, 하드웨어 전반에 걸친 프레임워크 네이티브 장애 허용 시스템을 제안합니다.

핵심 구성요소

TraceHang: 병렬성 정보와 통신 기록을 활용하여 명시적 장애 없는 hang의 원인을 자동 진단

Online SDC Scanner: 파이프라인 병렬성의 유휴 시간(버블 타임) 동안 고정 입력으로 계산 및 통신을 수행하여 Silent Data Corruption을 온라인으로 감지

Zero Cost Checkpoint (ZCC)

  • 훈련 프레임워크 측면: 파라미터와 옵티마이저 상태가 옵티마이저 실행 시에만 변경된다는 관찰에 기반
  • 클러스터 측면: 장애 노드 감지 시 모든 가용 NIC를 활용하여 적응적 대역폭 최대화

성능 지표: 장애 허용 프레임워크를 활용하면 10,000-GPU 클러스터에서도 98% 이상의 효과적 훈련 시간을 유지할 수 있으며, 종단간 자동 복구 시간을 8분 미만으로 단축했습니다.

6. Inference and Deployment

6.1 Quantization 전략

ERNIE 4.5는 다양한 배포 시나리오와 하드웨어 플랫폼을 수용하기 위해 FP8, INT8, INT4, 2-bit weight-only quantization을 포함한 여러 양자화 방식을 제공합니다.

W4A8 Quantization ERNIE-4.5-300B-A47B 모델에서 전문가 가중치가 총 파라미터의 90% 이상을 차지하므로, 전문가 구성요소의 GEMM에 W4A8 양자화를 적용합니다.

주요 도전과제:

  1. MoE에서의 느린 GPTQ: 모든 전문가 활성화와 수천 개 linear layer 최적화 필요
  2. Inter-Node Outliers: Tensor Parallel 배포 시 가중치, 활성화, outlier가 모든 GPU 노드에 분할
  3. Intra-Node Outliers: 각 GEMM 연산에서 가중치와 활성화 모두에 outlier가 존재하여 기존 방법들의 효과 제한

해결 방안

Multi-Expert Parallel Collaboration (MEPC)

  • 모든 전문가를 병렬로 처리하기 위해 가중치를 연결하여 GPU의 병렬 계산 능력을 완전히 활용
  • 활성화되지 않은 전문가에 대해서는 같은 레이어 내 활성화된 전문가들의 양자화 파라미터 평균을 사용
  • Hotspot-expert 병렬 GPTQ 업데이트: 토큰 활성화 빈도에 따라 중요한 전문가들을 우선적으로 최적화

Outlier Transfer Algorithm

  • 모든 N개 GPU에서 채널별 절댓값 최대 활성화 값 수집
  • Up-Gate Linear의 열과 Down Linear의 행을 전역적으로 순위를 매겨 유사한 활성화 범위를 가진 가중치 채널을 같은 GPU에 배치
  • 모든 outlier를 단일 노드로 집계하고 정규(non-outlier) 활성화를 나머지 노드에 분산

Layer-Adaptive Permutation Rotation 각 레이어의 활성화에서 outlier 분포를 사전 분석하여 가중치 또는 활성화 중 어느 쪽에 outlier smoothing을 우선할지 결정합니다.

\[x_{quantized} = \text{float8\_e4m3}\left(\text{clip}\left(\frac{x_{bf16} \times \text{fp8\_max}}{\text{scale}}, -448.0, 448.0\right)\right)\]

2-Bit Quantization ERNIE 4.5의 진입 장벽을 더욱 낮추기 위해 거의 무손실 2-bit 양자화 알고리즘을 구현하여 BF16 기준선 대비 모델 크기를 80% 감소시킵니다.

Convolutional Code Quantization (CCQ)를 제안하여 벡터 양자화의 고정밀도 데이터 양자화 능력과 스칼라 양자화의 낮은 계산 복잡도를 모두 보존합니다.

CCQ의 구성요소

  1. Convolutional Codebook: 코드북과 가중치 벡터 간 선형 매핑으로 룩업 없는 코드북 구축
  2. Hybrid Encoding: INT8과 INT16 형식으로 인코딩된 값 저장을 위한 다양한 코딩 구성
  3. Code Clustering: 인코딩된 값의 정규분포 특성을 활용한 코딩 차원에서의 추가 압축

6.2 Inference Acceleration

W4A8 Kernel Acceleration 양자화 알고리즘과 하드웨어 아키텍처의 협업을 충분히 고려하여 효율적으로 최적화된 추론 커널을 개발했습니다.

최적화 기법

  • Range Mapping: INT4 범위 [-8, 7]을 [-7, 7]로 제한
  • Bit-Shift Conversion: 4비트 왼쪽 시프트로 INT4를 INT8로 변환하여 [-112, 112] 범위 매핑
  • Weight Layout Optimization: Tensor Core 호환 INT8 가중치 레이아웃을 위한 interleaved 형식 사전 패킹

성능 결과:

  • 디코더 형태 워크로드에서 메모리 대역폭의 70%-80% 달성
  • 인코더 형태 워크로드에서 W4A16 대비 100% 이상 속도 향상

Efficient Attention Kernel FP8와 INT8 계산에서 하드웨어 능력과 정확도의 균형을 맞추기 위해 Hopper 아키텍처 GPU에서는 FP8, Ampere 아키텍처 GPU에서는 INT8을 활용합니다.

INT8-Formatted Attention Schraudolph(1999)의 발견을 바탕으로 빠른 지수 계산을 구현합니다:

\[e^x \approx F_{float}\left(2^{23} \times \lfloor\text{scale} \times x + \text{bias}\rfloor\right)\]

dequantization 단계와 지수 연산을 단일 FMA 명령으로 병합:

\[e^{x \times S_{qk}} \approx F_{float}\left(\lfloor 2^{23} \times \text{scale} \times S_{qk}\rfloor \times x + \lfloor 2^{23} \times \text{bias}\rfloor\right)\]

FP8-Formatted Attention: C4(비대칭 채널별 4비트 KV 캐시 양자화) 사용하는 attention 모듈에서 두 GEMM 연산을 FP8E4M3 형식으로 양자화합니다.

  • Fast Conversion: 4비트 KV 데이터를 FP8E4M3의 하위 4비트에 배치하여 UINT4-to-FP8E4M3 변환 구축
  • Fast Dequantization: K의 dequantization에서 다음 등가성 활용:
\[P = \text{softmax}\left(\frac{(Q \times S_{qk}) \times K^T}{\sqrt{d_k}}\right)\]

Speculative Decoding ERNIE 4.5는 Multi-Token Prediction (MTP) 모듈을 탑재하여 추론 단계에서 speculative decoding을 사용합니다. 병렬 샘플링과 검증, 깊이 맞춤화된 attention 커널을 활용하여 MTP는 autoregressive decoding과 비교 가능한 TPOT(Time per output token)를 유지하면서 60% 출력 처리량 증가를 달성합니다.

6.3 Deployment 최적화

PD Disaggregation with Expert Parallelism ERNIE-4.5-300B-A47B 모델에 대해 전문가 병렬성과 결합된 PD 분리 배포를 통해 시스템 처리량과 지연시간을 최적화합니다.

  • Prefilling 단계: attention 모듈에 대한 tensor parallelism 없이 8-way expert parallelism (EP8) 사용
  • Decoding 단계: EP8에서 EP64까지 유연한 병렬화 지원
  • 단계별 양자화: Prefilling에서는 block-wise FP8, Decoding에서는 W4A8 양자화
  1. KV Cache Transfer: RDMA 기반 노드 간 KV 캐시 전송 모듈
  2. All-to-All Communication: 전문가 라우팅을 위한 효율적 통신
  3. Multi-level Load Balancing: 분산 컴퓨팅 리소스 전반의 로드 밸런싱

Multi-level Load Balancing

Data Parallelism 로드 밸런싱

  • 글로벌 로드 인식 스케줄러가 KV 캐시 적중률과 토큰 수에 기반하여 쿼리 분배

Expert Parallelism 로드 밸런싱

  • 동적 전문가 중복 전략과 글로벌 전문가 재스케줄링 강제 적용
  • 가중치 사전 페칭과 비동기 로딩을 통한 극도로 낮은 지연시간 서비스 정체

PD Disaggregation 로드 밸런싱

  • 불일치하는 PD 비율로 인한 SLO 충족 어려움과 낮은 GPU 활용률 해결
  • 동적 역할 전환: 실시간 로드 조건에 기반하여 decoding 인스턴스가 짧은 입력 요청의 prefilling을 지능적으로 처리

성능 지표: 이러한 최적화 전략을 활용하여 ERNIE-4.5-300B-A47B는 입력 길이 2K, 출력 길이 400, 50ms TPOT 지연시간 제약 하에서 H800 노드당 56k 입력 TPS와 18k 출력 TPS의 추론 성능을 달성합니다.

7. Open-Source Development Tools

7.1 ERNIEKit

PaddlePaddle 프레임워크 기반의 ERNIE 4.5용 산업급 개발 툴킷으로, 모델 훈련과 압축 기능을 제공합니다.

Industrial-Grade High-Performance Pre-Training:

  • 하이브리드 병렬성 훈련 전략과 FP8 혼합 정밀도 최적화를 포함한 최대 ERNIE 4.5 언어 모델 pre-training의 고성능 구현

Low-Bit Quantization-Aware Fine-tuning

  • 저정밀도 훈련과 옵티마이저 오프로딩을 통합한 새로운 FP8-QAT 솔루션
  • 최대 ERNIE 4.5 언어 모델의 최소 GPU 요구사항을 96개에서 16개로 감소
  • 오프라인 텐서별 FP8 양자화 지원으로 런타임 양자화 오버헤드 제거

Visual Training & Inference Interface

  • 통합 Gradio 기반 WebUI로 ERNIE 4.5에서 제로 코드 파인튜닝, 정렬, 추론 연산 지원

7.2 FastDeploy

대규모 언어 모델과 비전 언어 모델을 위한 추론 및 배포 툴킷으로, vLLM 인터페이스와의 즉시 사용 가능한 호환성을 제공합니다.

핵심 기술 특징

PD Disaggregation with Multi-level Load Balancing

  • 컨텍스트 캐싱을 포함한 산업급 Prefill-Decode 분리 배포 오픈소스화
  • 통합 KV Cache 전송 설계로 NVLink와 RDMA 간 가장 효율적인 통신 링크 자동 선택

Comprehensive Low-Bit Quantized Inference Support

  • W8A8, W8A16, W4A8, W4A16, W2A16을 포함한 다양한 양자화 정밀도 지원
  • 내장 2-bit weight-only 양자화 모델로 ERNIE 4.5의 배포 리소스 요구사항 감소
  • 141GB 메모리를 가진 NVIDIA H20 GPU에서 단일 카드 추론 가능

Multi-hardware Support

  • PaddlePaddle의 다중 하드웨어 적응 능력 덕분에 NVIDIA GPU 외에도 Kunlunxin XPU, Hygon DCU, Ascend NPU 등 다양한 칩에서 추론 배포 지원

8. Evaluation and Results

8.1 Language Models 평가

Pre-trained Language Models 결과

ERNIE-4.5-300B-A47B-Base는 28개 벤치마크 중 22개에서 DeepSeek-V3-671B-A37B-Base를 능가하며, 모든 주요 능력 카테고리에서 선도적 성능을 보입니다.

총 파라미터 크기가 21B인 ERNIE-4.5-21B-A3B-Base가 Qwen3-30B-A3B-Base(약 70% 크기)보다 BBH와 CMATH를 포함한 여러 수학 및 추론 벤치마크에서 우수한 성능을 보여 뛰어난 파라미터 효율성을 보입니다.

Post-trained Language Models 결과

ERNIE-4.5-300B-A47B는 지시 따르기와 지식 태스크에서 상당한 강점을 보이며, IFEval, Multi-IF, SimpleQA, ChineseSimpleQA에서 최첨단 점수를 달성합니다.

하이라이트

  • 지시 따르기: IFEval 88.0%, Multi-IF 76.6%로 경쟁 모델 대비 우수
  • 지식 태스크: SimpleQA 45.9%, ChineseSimpleQA 77.1%로 강력한 팩트 정확도
  • 수학 및 코딩: 대부분 벤치마크에서 Qwen3-235B-A22B를 상당히 능가

8.2 Multimodal Models 평가

Non-Thinking Mode 성능 ERNIE-4.5-VL은 이미지 세부사항 인지와 관련 지식 회상에서 강력한 능력을 보입니다.

핵심

  • 시각적 인지: CountBench 93.3%, CV-Bench 85.5%, RealWorldQA 75.2%
  • 문서/차트 이해: OCRBench 883, DocVQA 94.3%, ChartQA 86.4%
  • 비디오 분석: VideoMME w/subs 79.7%, LongVideoBench 66.2%

문화적 이해 우수성: CCBench에서 뛰어난 성능으로 중국 지식과 문화에 대한 포괄적 이해를 보여주며, 이는 고품질 중국 텍스트 및 시각 데이터의 통합과 멀티모달 공동 훈련을 통한 향상 덕분입니다.

Thinking Mode 성능 ERNIE-4.5-VL-424B-A47B는 다양한 멀티모달 평가 벤치마크에서 일관되게 강력한 결과를 제공합니다.

Thinking vs Non-Thinking 비교:

  • MathVista: 78.8% (thinking) vs 74.9% (non-thinking)
  • MMMU: 67.3% (thinking) vs 58.9% (non-thinking)
  • VisualPuzzle: 41.0% (thinking) vs 34.6% (non-thinking)

상호 향상 효과: 사고 모드가 멀티모달 추론 태스크에서 뚜렷한 장점을 제공할 뿐만 아니라, 비사고 모드도 두 모드의 공동 훈련을 통해 개선되어 두 시나리오 모두에서 견고한 수학적 문제 해결 능력과 유능한 멀티모달 이해를 보여줍니다.

Lightweight VLM 성능 ERNIE-4.5-28B-A3B는 상당히 적은 활성화 파라미터를 사용함에도 불구하고 대부분 벤치마크에서 Qwen2.5-VL-7B 및 Qwen2.5-VL-32B와 경쟁하거나 우수한 성능을 달성합니다.

9. 결론 및 기여

9.1 주요 기술 기여

아키텍처 혁신

  1. Heterogeneous MoE: 모달리티별 전문가 분리와 공유 전문가를 통한 효율적인 멀티모달 학습
  2. 적응형 해상도 비전 인코더: 원본 종횡비 보존과 3D RoPE를 통한 시공간 이해
  3. 모달리티 분리 라우팅: 멀티모달 환경에서의 MoE 안정성 향상

훈련 최적화

  1. Router Orthogonalization Loss: 전문가 특화 촉진
  2. Token-Balanced Loss: 멀티모달 훈련에서의 그래디언트 안정성
  3. EMA 이론적 분석: 학습률 감소 관점에서의 체계적 이해

시스템 최적화

  1. Heterogeneous Parallelism: 멀티모달 모델의 효율적 분산 훈련
  2. Zero Cost Checkpoint: 무손실 체크포인팅으로 장애 허용성 향상
  3. FP8 Mixed Precision: 메모리와 계산 효율성 대폭 개선

9.2 실용적 영향

배포 접근성

  • 2-bit 양자화로 141GB H20 GPU 단일 카드 배포 가능
  • 다중 하드웨어 플랫폼 지원으로 광범위한 활용 가능
  • Apache 2.0 라이선스로 연구 및 상업적 사용 모두 지원

성능 벤치마크

  • H800 노드당 56k 입력 TPS, 18k 출력 TPS 달성
  • 98% 이상의 효과적 훈련 시간 유지 (10,000-GPU 클러스터)
  • 47% Model FLOPs Utilization (MFU) 달성

산업계 기여: ERNIE 4.5는 단순히 성능 향상을 넘어서, 대규모 멀티모달 모델의 실용적 배포와 효율적 훈련을 위한 포괄적 솔루션을 제공합니다. 특히 개발 툴킷 ERNIEKit과 FastDeploy의 오픈소스화를 통해 연구 커뮤니티와 산업계 모두에 실질적 가치를 제공합니다.

9.3 미래 전망

ERNIE 4.5의 성공은 다음과 같은 방향으로 발전할 수 있는 기반을 마련

  1. 더 효율적인 멀티모달 아키텍처: Heterogeneous MoE 패러다임의 확장
  2. 고급 추론 능력: Thinking/Non-thinking 모드의 더 정교한 통합
  3. 실시간 멀티모달 애플리케이션: 최적화된 추론 엔진을 통한 실용적 배포
  4. 다국어 및 문화적 이해: 특히 중국어와 중국 문화에 특화된 멀티모달 이해의 확장
Previous: Illusion of Illusion of Thiking Next: Self-Guided Process Reward Optimization with Masked Step Advantage for Process Reinforcement Learning

post contain ""

    No matching posts found containing ""