00:00:00

ERNIE 4.5 Technical Report

https://dsdanielpark.github.io https://github.com/dsdanielpark

ERNIE 4.5 Technical Report

MinWoo(Daniel) Park | Tech Blog

Created: 2025-06-30 11:45:54 +0000

Last modified: 2025-06-30 20:56:50 +0900

ERNIE 4.5 Technical Report

Related Project: Private
Category: Paper Review
Date: 2025-06-30

ERNIE 4.5 Technical Report

url https://yiyan.baidu.com/blog/publication/ERNIE_Technical_Report.pdf?utm_source=substack&utm_medium=email
abstract In this report, we introduce ERNIE 4.5, a new family of large-scale multimodal models comprising 10 distinct variants. The model family consist of Mixture-of-Experts (MoE) models with 47B and 3B active parameters, with the largest model having 424B total parameters, as well as a 0.3B dense model. For the MoE architecture, we propose a novel heterogeneous modality structure, which supports parameter sharing across modalities while also allowing dedicated parameters for each individual modality. This MoE architecture has the advantage to enhance multimodal understanding without compromising, and even improving, performance on text-related tasks. All of our models are trained with optimal efficiency using the PaddlePaddle deep learning framework, which also enables high-performance inference and streamlined deployment for them. We achieve 47% Model FLOPs Utilization (MFU) in our largest ERNIE 4.5 language model pre-training. Experimental results show that our models achieve state-of-the-art performance across multiple text and multimodal benchmarks, especially in instruction following, world knowledge memorization, visual understanding and multimodal reasoning. All models are publicly accessible under Apache 2.0 to support future research and development in the field. Additionally, we open source the development toolkits for ERNIE 4.5, featuring industrial-grade capabilities, resourceefficient training and inference workflows, and multi-hardware compatibility.
github https://github.com/PaddlePaddle/ERNIE
huggingface https://huggingface.co/baidu

ERNIE 4.5

1. 전체 아키텍처

1.1 기본 설계 철학

ERNIE 4.5는 멀티모달 AI의 근본적인 도전과제를 해결하려고 합니다. 기존 모델들이 텍스트와 이미지를 단순히 합쳐서 처리했다면, ERNIE 4.5는 각각의 특성을 살리면서도 서로 협력할 수 있도록 설계

핵심 아이디어: 텍스트는 순차적이고 논리적인 특성을 가지고, 이미지/비디오는 공간적이고 시각적인 특성을 가집니다. 이 둘을 같은 방식으로 처리하면 각각의 장점을 살리기 어렵습니다. (각주: 특히 같은 방식으로 처리하게 되면 이미지 처리에 과하게 비효율적으로 많은 리소스를 투입해야하며, 그래서 현재 채널이나 사이즈가 매우 제한적이며, 리사이즈하는 과정에서 정보 손실이 발생했음.)

1.2 전체 정보 흐름

입력 단계:
텍스트: "이 이미지를 설명해주세요" 
이미지: [고양이 사진]

처리 과정
1. 텍스트 → 텍스트 토큰화 → [토큰1, 토큰2, ...]
2. 이미지 → 비전 인코더 → 비전 토큰들 → [비전토큰1, 비전토큰2, ...]
3. 어댑터에서 두 종류 토큰을 같은 차원으로 맞춤
4. Heterogeneous MoE에서 각각 전용 전문가가 처리하면서 공유 전문가도 함께 작업
5. 최종 텍스트 생성: "이 이미지에는 귀여운 고양이가..."

2. Heterogeneous MoE: 핵심 혁신 구조

2.1 기존 MoE의 한계점 이해

전통적인 MoE (Mixture of Experts)는 다음과 같이 작동

모든 입력을 라우터가 보고 “이 입력은 전문가 A가, 저 입력은 전문가 B가 처리하자”고 결정
하지만 텍스트와 이미지가 섞여있으면 라우터가 혼란스러워함
결과적으로 텍스트 처리 능력이 떨어지거나 이미지 이해가 부족해짐

2.2 ERNIE 4.5의 해결책

전문가 그룹을 3개로 나눔

텍스트 전문가 (Text Experts): 오직 텍스트 토큰만 처리
비전 전문가 (Vision Experts): 오직 이미지/비디오 토큰만 처리
공유 전문가 (Shared Experts): 모든 토큰을 함께 처리

\[\text{Final Output} = \text{SelfAttention}(\text{All Tokens}) + \text{SharedExperts}(\text{All Tokens}) + \text{TextExperts}(\text{Text Tokens}) + \text{VisionExperts}(\text{Vision Tokens})\]

$\text{SelfAttention}(\text{All Tokens})$: 모든 토큰이 서로를 ‘주의깊게’ 살펴보며 관계를 파악
$\text{SharedExperts}(\text{All Tokens})$: 텍스트와 이미지 간 공통된 이해를 담당
$\text{TextExperts}(\text{Text Tokens})$: 텍스트만의 특별한 특성 (문법, 논리 등) 처리
$\text{VisionExperts}(\text{Vision Tokens})$: 이미지만의 특별한 특성 (공간, 색상 등) 처리

2.3 왜 비전 전문가를 1/3 크기로 만들었나?

이유 1: 시각 정보의 중복성

이미지 토큰들은 서로 비슷한 정보를 많이 가지고 있음 (인접한 픽셀들이 유사)
텍스트는 각 단어가 고유한 의미를 가짐

이유 2: 계산 효율성

FFN 계산량 = 입력 차원 × 중간 차원
비전 전문가 중간 차원을 1/3로 하면 비전 토큰당 계산량이 66% 감소

\[\text{FLOPs}_{\text{vision}} = \text{num_vision_tokens} \times d_{\text{input}} \times \frac{d_{\text{intermediate}}}{3}\]

2.4 Modality-Isolated Routing 작동 원리

기존 문제점 멀티모달 데이터로 훈련할 때, 갑자기 데이터 분포가 바뀌면 (예: 텍스트만 있다가 이미지가 갑자기 많아짐) 라우터가 어떤 전문가를 선택해야 할지 혼란스러워 함.

ERNIE 4.5의 해결책

텍스트 라우터: 오직 텍스트 토큰만 보고 텍스트 전문가들 중 선택
비전 라우터: 오직 비전 토큰만 보고 비전 전문가들 중 선택

$P_{\text{text}}(e_i \| x_{\text{text}}) = \text{Softmax}(\text{Router}_{\text{text}}(x_{\text{text}}))_i$ $P_{\text{vision}}(e_j \| x_{\text{vision}}) = \text{Softmax}(\text{Router}_{\text{vision}}(x_{\text{vision}}))_j$

$P_{\text{text}}(e_i \| x_{\text{text}})$$: 텍스트 입력 $x_{\text{text}}$가 주어졌을 때 텍스트 전문가 $e_i$를 선택할 확률
$P_{\text{vision}}(e_j \| x_{\text{vision}})$: 비전 입력이 주어졌을 때 비전 전문가를 선택할 확률

3. 비전 처리: 적응형 해상도 시스템

3.1 기존 방식의 근본적 문제

고정 해상도의 문제점 대부분의 비전 모델은 224×224 같은 정사각형 입력을 요구하지만, 실제 이미지는 다음과 같음

세로로 긴 이미지 (세로 사진, 웹페이지 스크린샷)
가로로 긴 이미지 (파노라마, 차트)
다양한 해상도

이를 억지로 정사각형으로 맞추면 이미지가 찌그러지거나 중요한 정보가 잘립니다.

3.2 ERNIE 4.5의 적응형 해상도 해결책

단계별 처리 과정

1단계: 원본 비율 보존 리사이징

원본 이미지: 1920×1080 (16:9 비율) 패치 크기: 16×16
목표: 패치 크기의 배수로 맞추기

계산

가로: 1920 ÷ 16 = 120 → 120×16 = 1920 (그대로)
세로: 1080 ÷ 16 = 67.5 → 68×16 = 1088 (약간 늘림)

결과: 1920×1088 (원본 비율 거의 보존)

2단계: 2D RoPE로 위치 인코딩

RoPE (Rotary Position Embedding) RoPE는 토큰의 위치 정보를 회전 변환으로 인코딩

1D RoPE (텍스트용) $\text{RoPE}(x, pos) = x \cdot \cos(pos \cdot \theta) + \text{rotate}(x) \cdot \sin(pos \cdot \theta)$

2D RoPE (이미지용) $\text{RoPE}_{2D}(x, i, j) = \text{RoPE}_{\text{height}}(x, i) \otimes \text{RoPE}_{\text{width}}(x, j)$

$i$: 세로 위치 (몇 번째 행)
$j$: 가로 위치 (몇 번째 열)
$\otimes$: 두 RoPE 결과를 결합하는 연산

기하학적 의미

모델이 “이 픽셀이 이미지의 왼쪽 위에 있다” 또는 “오른쪽 아래에 있다”는 정보를 정확히 알 수 있음
가로세로 비율이 다른 이미지에서도 올바른 위치 정보 제공

3.3 비디오 처리: 시공간 통합

타임스탬프 렌더링의 혁신

기존 방법들은 비디오의 시간 정보를 다음과 같이 처리

Position embedding에 시간 차원 추가
별도의 시간 토큰 삽입

ERNIE 4.5의 접근법 각 프레임의 왼쪽 위 모서리에 실제 타임스탬프를 그림으로 그려 넣습니다.

프레임 1: [00:01] 이미지 내용
프레임 2: [00:02] 이미지 내용  
프레임 3: [00:03] 이미지 내용

장점

추가 토큰 소비 없음
모델이 직접 시간을 ‘볼’ 수 있음
임의의 프레임 레이트에 유연하게 대응

3D RoPE for Video 상세

\[\text{3D RoPE}(x, t, h, w) = \text{RoPE}_{\text{temporal}}(x, t) \otimes \text{RoPE}_{\text{height}}(x, h) \otimes \text{RoPE}_{\text{width}}(x, w)\]

각 차원의 주파수 할당

시간축 (Temporal): 가장 낮은 주파수 (천천히 변함)
공간축 (Height, Width): 높은 주파수들을 교대로 할당

직관적 의미

시간은 천천히 바뀌므로 낮은 주파수로 인코딩
공간은 빠르게 바뀔 수 있으므로 높은 주파수 사용
이를 통해 모델이 “3초에 화면 왼쪽에서” 같은 시공간 정보를 정확히 파악

4. 핵심 수학적 최적화 기법

4.1 Router Orthogonalization Loss 상세 분석

근본 문제: 전문가 동질화

MoE에서 여러 전문가가 있어도 시간이 지나면서 비슷한 역할을 하게 되는 문제

처음: 전문가A(수학), 전문가B(언어), 전문가C(논리)
나중: 전문가A(수학+언어), 전문가B(수학+언어), 전문가C(수학+언어)

각주: 특히 위 내용을 판별하기 어려워지는 문제가 발생, 특히 주로 어려운 문제에 초점을 맞추면 일반화된 성능이 떨어지는 문제들이 발생해왔음.

ERNIE의 해결책: 직교성 강제

Router Orthogonalization Loss는 각 전문가의 라우터 가중치가 서로 수직이 되도록 강제

\[L_{\text{orth}} = \sum_{i=1}^{k} \sum_{j=1}^{k} \left\|\hat{w}_i^T \hat{w}_j - \delta_{ij}\right\|^2\]

$w_i$: $i$번째 전문가를 위한 라우터 가중치 벡터
$\hat{w}_i = \frac{w_i}{|w_i|_2}$: 정규화된 가중치 (길이를 1로 만듦)
$\hat{w}_i^T \hat{w}_j$: 두 정규화된 벡터의 내적 (코사인 유사도)
$\delta_{ij}$: 크로네커 델타
- $i = j$일 때: $\delta_{ij} = 1$ (자기 자신과는 완전히 유사해야 함)
- $i \neq j$일 때: $\delta_{ij} = 0$ (다른 전문가와는 완전히 다서야 함)

직관

벡터가 정규화되었을 때 내적이 0이면 서로 수직 (완전히 다른 방향)
내적이 1이면 같은 방향 (완전히 같음)
이 손실함수는 서로 다른 전문가들이 수직이 되도록 강제

실제 효과 실험 결과 +1.44 성능 향상을 보였는데, 이는 각 전문가가 진짜로 다른 역할을 하게 되었기 때문이라고 연구진은 해석

4.2 Token-Balanced Loss 상세 분석

문제 상황 구체적 예시

멀티모달 훈련에서 다음과 같은 샘플들이 있다고 가정

샘플 1: [이미지 토큰 100개] + [텍스트 토큰 10개] → 텍스트 비율 9%
샘플 2: [이미지 토큰 20개] + [텍스트 토큰 80개] → 텍스트 비율 80%

기존 CrossEntropy Loss의 문제

\[L^{(i)} = -\frac{1}{|U_i|} \sum_{j \in U_i} \log P(y_j^{(i)} | y_{<j}^{(i)})\]

$\|U_i\|$는 텍스트 토큰 수

샘플 1: $\frac{1}{10}$ 로 나누어짐 → 손실값이 큼
샘플 2: $\frac{1}{80}$ 로 나누어짐 → 손실값이 작음

결과적으로 텍스트가 적은 샘플이 과도하게 큰 그래디언트를 만들어 훈련을 불안정하게 만들게 됨.

ERNIE 4.5의 Token-Balanced Loss

\[L_{\text{balanced}}^{(i)} = \frac{1}{|U_i| + |M_i|} \sum_{j \in U_i} \ell_j^{(i)}\]

개선점

샘플 1: $\frac{1}{100 + 10} = \frac{1}{110}$ 로 나누어짐
샘플 2: $\frac{1}{20 + 80} = \frac{1}{100}$ 로 나누어짐

이제 전체 시퀀스 길이로 정규화되어 각 샘플이 비슷한 크기의 그래디언트를 생성합니다.

$\|U_i\|$: 마스크되지 않은 토큰 수 (loss 계산에 참여하는 텍스트 토큰)
$\|M_i\|$: 마스크된 토큰 수 (loss 계산에 참여하지 않는 이미지 토큰)
$\ell_j^{(i)} = -\log P(y_j^{(i)} \| y_{<j}^{(i)})$: 개별 토큰의 loss

5. EMA (Exponential Moving Average) 이론적 분석

5.1 EMA가 학습률 감소와 같다는 발견

전통적인 EMA 이해 $\theta_{\text{EMA}}^t = \alpha \theta_{\text{EMA}}^{t-1} + (1-\alpha) \theta^t$

이는 단순히 “이전 가중치와 현재 가중치의 가중평균”으로 이해되었습니다.

ERNIE 4.5의 새로운 해석

EMA를 펼치면

\[\theta_{\text{EMA}}^n = \theta_0 + \sum_{i=0}^{n-1} \eta_i^{(\alpha)} \delta_i\]

$\delta_i = \theta_{i+1} - \theta_i$: $i$번째 스텝의 파라미터 업데이트
$\eta_i^{(\alpha)} = 1 - \alpha^{n-i}$: $i$번째 업데이트에 적용되는 “효과적 학습률”

핵심 발견

$\eta_i^{(\alpha)}$를 자세히 보면

$i = n-1$ (가장 최근): $\eta_{n-1}^{(\alpha)} = 1 - \alpha^1 = 1 - \alpha$ (가장 작음)
$i = n-2$: $\eta_{n-2}^{(\alpha)} = 1 - \alpha^2$ (조금 더 큼)
$i = 0$ (가장 오래됨): $\eta_0^{(\alpha)} = 1 - \alpha^n$ (가장 큼, 거의 1에 가까움)

직관적 의미

최근 업데이트일수록 작은 가중치를, 오래된 업데이트일수록 큰 가중치를 받아 학습률을 점점 줄여가며 훈련하는 것과 같은 효과를 보이게 됨.

5.2 Effective Decay Window 제어

목표 원하는 크기 $\hat{W}$의 decay window를 만들고 싶을 때, 적절한 $\alpha$ 값을 찾기

수학적 유도

임계값 $\epsilon$ (예: 0.001)을 설정하고, 효과적 학습률이 이보다 작아지는 지점을 찾음.

$\eta_j^{(\alpha)} = 1 - \alpha^{n-j} < 1 - \epsilon$ $\alpha^{n-j} > \epsilon$ $(n-j) \log \alpha > \log \epsilon$

$$\log \alpha < 0$이므로 부등호가 변경

\[n-j < \frac{\log \epsilon}{\log \alpha}\]

$W = n-j$를 decay window 크기라 하면 $W < \frac{\log \epsilon}{\log \alpha}$

원하는 window 크기 $\hat{W}$에 대해 $\hat{W} = \frac{\log \epsilon}{\log \alpha}$ $\log \alpha = \frac{\log \epsilon}{\hat{W}}$ $\alpha = \exp\left(\frac{\log \epsilon}{\hat{W}}\right)$

실용적 적용

전체 훈련 스텝을 100,000이라 하면
Decay window를 10,000 (마지막 10%)으로 설정
$\epsilon = 0.001$로 하면
$\alpha = \exp\left(\frac{\ln(0.001)}{10000}\right) \approx 0.9993$

6. Post-Training의 Progressive RL과 UPO

6.1 Progressive Reinforcement Learning (PRL) 상세

기존 RL의 문제점

한 번에 모든 종류의 태스크로 RL을 하면 모델이 혼란스러워하게 됨. 즉, 수학 문제를 풀다가 갑자기 창작 글쓰기를 해야 하면 어떤 스타일로 답해야 할지 모르게 됩니다.

PRL의 3단계 접근법

Stage 1: Logic Corpus

순수한 논리 문제만 학습
예: “A이면 B이고, B이면 C이다. A가 참이면 C는?”
목표: 논리적 사고의 기초 다지기

Stage 2: Math & Coding

수학과 프로그래밍 문제 학습
예: “방정식을 풀어라”, “이 함수를 구현해라”
목표: 구조적 정밀성과 실행 가능한 답변 능력

Stage 3: General Tasks

모든 종류의 태스크
목표: 앞서 학습한 논리성과 정밀성을 일반 상황에 적용

각 단계에서 정책 $\pi_i$를 학습하고, 다음 단계는 이전 정책을 초기값으로 사용

\[\pi_1 \rightarrow \pi_2 \rightarrow \pi_3\]

6.2 Unified Preference Optimization (UPO) 상세

기존 PPO의 한계

PPO는 다음 목표함수를 최적화하는데,

\[L_{\text{PPO}} = \mathbb{E}\left[\min\left(r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t\right)\right]\]

$r_t(\theta) = \frac{\pi_\theta(a_t\|s_t)}{\pi_{\text{old}}(a_t\|s_t)}$: 정책 비율
$\hat{A}_t$: advantage 추정값

문제점 절대적인 보상값에만 의존해서 “이 답이 좋다/나쁘다”만 학습할 수 있음.

DPO (Direct Preference Optimization) $L_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right]$

$y_w$: 선호되는 답변 (winner)
$y_l$: 선호되지 않는 답변 (loser)
$\beta$: 온도 파라미터
$\sigma$: 시그모이드 함수

UPO의 통합

\[L_{\text{UPO}} = L_{\text{PPO}} + \lambda L_{\text{DPO}}\]

직관적 의미

PPO: “이 답변은 높은 보상을 받았으니 좋은 답변이다”
DPO: “답변 A가 답변 B보다 더 선호된다”
UPO: 절대적 품질과 상대적 선호도를 동시에 학습

Online vs Offline UPO

Online UPO 각 RL 반복에서 여러 답변을 생성하고 rejection sampling으로 선호 쌍 구성

질문: "2+2는?"
생성된 답변들: ["4", "4.0", "2+2=4", "사과"] 
Rejection sampling: ("4", "사과") 쌍 선택 → "4"가 더 선호됨

Offline UPO

RL 훈련 전에 미리 모든 선호 데이터 생성하고 저장

7. 양자화 기술: W4A8과 CCQ

7.1 W4A8 Quantization 상세 원리

기본 아이디어

Weights: 4-bit로 저장 (16개 값만 표현 가능)
Activations: 8-bit로 계산 (256개 값 표현 가능)

Fast Bit-Shift Conversion 과정

1단계: Range 제한

원래 INT4 범위: [-8, -7, -6, ..., 6, 7]  (16개 값)
제한된 범위: [-7, -6, -5, ..., 5, 6, 7]  (15개 값)

왜 -8을 제외? 대칭성을 위해서 (양수와 음수 개수 맞춤)

2단계: Bit-Shift 변환

INT4 값: 3
4비트 왼쪽 시프트: 3 << 4 = 3 × 16 = 48

모든 INT4 값에 적용

INT4: [-7, -6, -5, ..., 6, 7]
INT8: [-112, -96, -80, ..., 96, 112]

3단계: Scale 적용

실제 가중치 값으로 변환

실제_값 = INT8_값 × scale_factor

Weight Layout Optimization

Tensor Core를 효율적으로 사용하기 위해 가중치를 특별한 순서로 배열

원래 순서: [w0, w1, w2, w3, w4, w5, w6, w7]
Interleaved: [w0, w4, w1, w5, w2, w6, w3, w7]

이렇게 하면 8개 값을 3개 명령어로 변환 가능 (효율성 대폭 향상)

7.2 Convolutional Code Quantization (CCQ) 혁신

기존 2-bit 양자화의 문제

Scalar 방식: 간단하지만 정확도 크게 하락
Vector 방식: 정확도는 좋지만 lookup table 때문에 속도 느림

CCQ의 접근

1. Convolutional Codebook

전통적인 Vector Quantization은 다음과 같이 작동

입력 벡터 → 코드북에서 가장 가까운 벡터 찾기 → 인덱스 저장
복원할 때: 인덱스 → 코드북 lookup → 벡터 복원

CCQ는 Convolutional Code를 사용하여 lookup 없이 선형 매핑 구현

입력 벡터 → Convolutional encoding → 압축된 표현
복원할 때: 압축된 표현 → 선형 변환 → 벡터 복원

2. Hybrid Encoding

4-bit 양자화를 2.75-bit로 압축: INT8 형식 사용
3-bit 양자화를 2.5-bit로 압축: INT16 형식 사용

3. Code Clustering

인코딩된 값들이 정규분포를 따른다는 관찰에 기반

인코딩된 값들: [v1, v2, v3, ..., vn]
클러스터링: {cluster1, cluster2, cluster3, cluster4}
최종 표현: 2-bit (4개 클러스터 중 하나)

전체 프로세스

원본 가중치 → Convolutional Encoding → Hybrid Encoding → Code Clustering → 2-bit 표현
복원: 2-bit → 클러스터 ID → 인코딩된 값 → 선형 변환 → 원본 가중치

수학적 표현 원본 벡터 $\mathbf{w}$를 2-bit로 압축

Convolutional Encoding

\[\mathbf{c} = \text{ConvEncode}(\mathbf{w})\]

Clustering

\[\text{cluster_id} = \arg\min_k \|\mathbf{c} - \mathbf{centroid}_k\|^2\]

2-bit 저장

\[\text{2bit_repr} = \text{cluster_id} \in \{0, 1, 2, 3\}\]

복원 과정

\[\hat{\mathbf{w}} = \text{LinearTransform}(\mathbf{centroid}_{\text{cluster_id}})\]

성능 비교

저장 공간: BF16 대비 80% 감소
정확도 손실: 거의 무손실 (multiple benchmarks에서 FP8와 비슷한 성능)
계산 속도: Scalar quantization과 비슷한 속도

8. 훈련 프레임워크: 시스템 최적화

8.1 Heterogeneous Parallelism 상세 분석

근본적 도전과제

ERNIE 4.5는 두 개의 매우 다른 구성요소를 가지고 있음

ViT 인코더: 630M 파라미터 (상대적으로 작음)
MoE 백본: 424B 파라미터 (매우 큼)

이 둘을 효율적으로 함께 훈련하는 것은 마치 자전거와 기차를 함께 운행하는 것과 같습니다.

해결책: 이종 병렬화

ViT 인코더 처리 전략

모든 GPU에 ViT 인코더 복사 (작으니까 가능)
각 GPU가 독립적으로 이미지 처리
결과를 MoE의 첫 번째 단계로 모음

MoE 백본 처리 전략

하이브리드 병렬화
- Expert Parallelism (EP): 전문가들을 여러 GPU에 분산
- Pipeline Parallelism (PP): 레이어들을 여러 GPU에 분산  
- Tensor Parallelism (TP): 큰 행렬을 여러 GPU에 분산

Forward Pass 상세 과정

1. 각 GPU에서 독립적 비전 처리

GPU 0: 이미지 배치 [0, 4, 8, ...] → 비전 특징
GPU 1: 이미지 배치 [1, 5, 9, ...] → 비전 특징  
GPU 2: 이미지 배치 [2, 6, 10, ...] → 비전 특징
GPU 3: 이미지 배치 [3, 7, 11, ...] → 비전 특징

2. MoE 첫 번째 단계로 수집

모든 비전 특징을 GPU 0 (PP stage 0)으로 gather
GPU 0이 텍스트 토큰과 비전 토큰을 합쳐서 처리 시작

3. 파이프라인을 통한 전파

GPU 0 (PP stage 0) → GPU 1 (PP stage 1) → ... → GPU N (PP stage N-1)

Backward Pass의 복잡성

파이프라인 역전파가 끝나면 ViT 인코더의 그래디언트를 계산해야 하는데, 문제는 자동 미분이 MoE 백본에서 끝나고 ViT까지 이어지지 않는다는 점입니다.

해결책

그래디언트 분산 MoE 첫 번째 단계에서 모든 비전 특징 그래디언트를 각 GPU로 분산
독립적 역전파 각 GPU가 자신의 ViT 인코더에서 역전파 수행
그래디언트 동기화 모든 GPU에서 ViT 파라미터 그래디언트를 AllReduce로 합산

\[\frac{\partial L}{\partial \theta_{\text{ViT}}} = \text{AllReduce}\left(\sum_{\text{local}} \frac{\partial L}{\partial \mathbf{v}_i} \frac{\partial \mathbf{v}_i}{\partial \theta_{\text{ViT}}}\right)\]

$\mathbf{v}_i$: $i$번째 비전 특징
$\theta_{\text{ViT}}$: ViT 인코더 파라미터

8.2 Hierarchical Load Balance Strategy

문제 상황

가변 해상도 이미지와 다양한 길이의 비디오로 인해 GPU마다 계산량이 크게 달라짐.

구체적 예시

GPU 0: [고해상도 이미지 1개, 토큰 1000개] → 과부하
GPU 1: [저해상도 이미지 5개, 토큰 500개] → 여유
GPU 2: [긴 비디오 1개, 토큰 2000개] → 극도로 과부하  
GPU 3: [짧은 비디오 3개, 토큰 300개] → 매우 여유

Level 1: Coarse-grained Load Balance

단계별 과정

1. 모든 packed sequence 수집 및 정렬

Sequence A: 100 토큰
Sequence B: 500 토큰  
Sequence C: 200 토큰
Sequence D: 800 토큰

정렬 후: [A(100), C(200), B(500), D(800)]

2. Round-robin 분배

GPU 0: A(100) + D(800) = 900 토큰
GPU 1: C(200) + B(500) = 700 토큰
총 토큰 수가 비슷해짐

Round-Robin 로드 밸런싱 상세 설명

Round-robin은 순환 방식으로 작업을 분배하는 알고리즘이지만, 단순 순환이 아닌 토큰 수 기반 최적화된 round-robin을 사용

문제 상황 예시

# 가변 길이 시퀀스들 (실제 ERNIE 4.5 멀티모달 데이터)
sequences = [
    {"id": "A", "tokens": 100},   # 짧은 텍스트
    {"id": "B", "tokens": 500},   # 중간 길이 이미지
    {"id": "C", "tokens": 200},   # 작은 이미지  
    {"id": "D", "tokens": 800},   # 긴 비디오
    {"id": "E", "tokens": 150},   # 짧은 텍스트
    {"id": "F", "tokens": 600}    # 큰 이미지
]

gpus = 2  # 2개 GPU 예시

단순 Round-Robin의 문제

# 단순 순환 분배 (잘못된 방법)
def naive_round_robin(sequences, gpus):
    gpu_assignments = [[] for _ in range(gpus)]
    
    for i, seq in enumerate(sequences):
        gpu_id = i % gpus
        gpu_assignments[gpu_id].append(seq)
    
    return gpu_assignments

# 결과
naive_result = naive_round_robin(sequences, 2)
# GPU 0: [A(100), C(200), E(150)] = 450 토큰
# GPU 1: [B(500), D(800), F(600)] = 1900 토큰
# 불균형! GPU 1이 4배 더 많은 작업량

ERNIE 4.5의 최적화된 Round-Robin

def optimized_round_robin(sequences, gpus):
    # 1단계: 토큰 수 기준 정렬 (오름차순)
    sorted_seqs = sorted(sequences, key=lambda x: x["tokens"])
    print("정렬된 시퀀스:", [f"{s['id']}({s['tokens']})" for s in sorted_seqs])
    
    # 2단계: GPU별 누적 토큰 수 추적
    gpu_loads = [0] * gpus
    gpu_assignments = [[] for _ in range(gpus)]
    
    # 3단계: 가장 적은 부하를 가진 GPU에 할당
    for seq in sorted_seqs:
        # 현재 가장 적은 토큰을 가진 GPU 찾기
        min_gpu = gpu_loads.index(min(gpu_loads))
        
        # 해당 GPU에 시퀀스 할당
        gpu_assignments[min_gpu].append(seq)
        gpu_loads[min_gpu] += seq["tokens"]
        
        print(f"{seq['id']}({seq['tokens']}) → GPU {min_gpu}, "
              f"GPU 부하: {gpu_loads}")
    
    return gpu_assignments, gpu_loads

# 실행
result, loads = optimized_round_robin(sequences, 2)

실행 과정 시뮬레이션

정렬된 시퀀스: ['A(100)', 'E(150)', 'C(200)', 'B(500)', 'F(600)', 'D(800)']

할당 과정:
1. A(100) → GPU 0, GPU 부하: [100, 0]
2. E(150) → GPU 1, GPU 부하: [100, 150] 
3. C(200) → GPU 0, GPU 부하: [300, 150]
4. B(500) → GPU 1, GPU 부하: [300, 650]
5. F(600) → GPU 0, GPU 부하: [900, 650]
6. D(800) → GPU 1, GPU 부하: [900, 1450]

최종 결과:
GPU 0: [A(100), C(200), F(600)] = 900 토큰
GPU 1: [E(150), B(500), D(800)] = 1450 토큰

더 나은 밸런싱: Greedy Best-Fit

def greedy_best_fit(sequences, gpus):
    # 토큰 수 기준 내림차순 정렬 (큰 것부터)
    sorted_seqs = sorted(sequences, key=lambda x: x["tokens"], reverse=True)
    
    gpu_loads = [0] * gpus
    gpu_assignments = [[] for _ in range(gpus)]
    
    for seq in sorted_seqs:
        # 가장 적은 부하를 가진 GPU에 할당
        min_gpu = gpu_loads.index(min(gpu_loads))
        gpu_assignments[min_gpu].append(seq)
        gpu_loads[min_gpu] += seq["tokens"]
        
        print(f"{seq['id']}({seq['tokens']}) → GPU {min_gpu}, "
              f"GPU 부하: {gpu_loads}")
    
    return gpu_assignments, gpu_loads

# 실행
result, loads = greedy_best_fit(sequences, 2)

Greedy 방식 실행 결과

정렬된 시퀀스: ['D(800)', 'F(600)', 'B(500)', 'C(200)', 'E(150)', 'A(100)']

할당 과정:
1. D(800) → GPU 0, GPU 부하: [800, 0]
2. F(600) → GPU 1, GPU 부하: [800, 600]
3. B(500) → GPU 1, GPU 부하: [800, 1100]
4. C(200) → GPU 0, GPU 부하: [1000, 1100]
5. E(150) → GPU 0, GPU 부하: [1150, 1100]
6. A(100) → GPU 1, GPU 부하: [1150, 1200]

최종 결과:
GPU 0: [D(800), C(200), E(150)] = 1150 토큰
GPU 1: [F(600), B(500), A(100)] = 1200 토큰
차이: 50 토큰 (매우 균등!)

실제 ERNIE 4.5에서의 복잡성

# Pseudo 약식 구현
class MultimodalSequence:
    def __init__(self, seq_id, text_tokens, vision_tokens, video_frames):
        self.id = seq_id
        self.text_tokens = text_tokens
        self.vision_tokens = vision_tokens  
        self.video_frames = video_frames
        
        # 총 계산 복잡도 고려
        self.total_cost = (
            text_tokens * 1.0 +           # 텍스트 기본 비용
            vision_tokens * 0.33 +        # 비전 전문가 1/3 크기
            video_frames * vision_tokens * 0.5  # 시간적 복잡도
        )

def ernie_load_balancer(sequences, gpus):
    # 계산 비용 기준 정렬
    sorted_seqs = sorted(sequences, key=lambda x: x.total_cost, reverse=True)
    
    gpu_loads = [0.0] * gpus
    gpu_assignments = [[] for _ in range(gpus)]
    
    for seq in sorted_seqs:
        min_gpu = gpu_loads.index(min(gpu_loads))
        gpu_assignments[min_gpu].append(seq)
        gpu_loads[min_gpu] += seq.total_cost
    
    return gpu_assignments, gpu_loads

인사이트

단순 round-robin은 불충분: 가변 길이 데이터에서는 심각한 불균형 발생
토큰 수 고려 필수: 실제 계산량을 반영한 스마트 분배 필요
Greedy best-fit 효과적: 큰 작업부터 배치하여 균형 최적화
실시간 부하 추적: 각 GPU의 현재 부하를 지속적으로 모니터링

ERNIE 4.5의 로드 밸런싱은 이런 최적화된 알고리즘을 통해 멀티모달 훈련에서 32% 성능 향상을 달성했다고 보고

[참고자료]

로드 밸런싱 알고리즘 비교 분석

1. 기본 분배 전략들

1.1 Static Round-Robin (정적 순환)

def static_round_robin(sequences, gpus):
    gpu_assignments = [[] for _ in range(gpus)]
    for i, seq in enumerate(sequences):
        gpu_id = i % gpus
        gpu_assignments[gpu_id].append(seq)
    return gpu_assignments

# 특징: 순서대로 돌아가며 배치
# 장점: 구현 간단, 예측 가능
# 단점: 작업 크기 무시, 심각한 불균형 발생

1.2 Weighted Round-Robin (가중 순환)

def weighted_round_robin(sequences, gpus, weights):
    """GPU별 가중치에 따라 더 많은/적은 작업 할당"""
    gpu_assignments = [[] for _ in range(gpus)]
    weight_counters = weights.copy()
    current_gpu = 0
    
    for seq in sequences:
        while weight_counters[current_gpu] <= 0:
            current_gpu = (current_gpu + 1) % gpus
            if current_gpu == 0:  # 한 라운드 완료
                weight_counters = weights.copy()
        
        gpu_assignments[current_gpu].append(seq)
        weight_counters[current_gpu] -= 1
    
    return gpu_assignments

# 예시: GPU 0은 강력하므로 가중치 3, GPU 1은 가중치 1
# weights = [3, 1] → GPU 0이 3개, GPU 1이 1개씩 받음
# 장점: GPU 성능 차이 고려
# 단점: 여전히 작업 크기 무시

2. 동적 분배 전략들

2.1 Least Loaded First (최소 부하 우선)

def least_loaded_first(sequences, gpus):
    """현재 가장 부하가 적은 GPU에 할당"""
    gpu_loads = [0] * gpus
    gpu_assignments = [[] for _ in range(gpus)]
    
    for seq in sequences:
        min_gpu = gpu_loads.index(min(gpu_loads))
        gpu_assignments[min_gpu].append(seq)
        gpu_loads[min_gpu] += seq.tokens
    
    return gpu_assignments, gpu_loads

# ERNIE 4.5가 사용하는 방식
# 장점: 실시간 부하 고려, 자동 균형
# 단점: 정렬 없이 사용하면 suboptimal

2.2 Longest Processing Time First (LPT)

def lpt_scheduling(sequences, gpus):
    """가장 큰 작업부터 배치 (Greedy Best-Fit)"""
    sorted_seqs = sorted(sequences, key=lambda x: x.tokens, reverse=True)
    gpu_loads = [0] * gpus
    gpu_assignments = [[] for _ in range(gpus)]
    
    for seq in sorted_seqs:
        min_gpu = gpu_loads.index(min(gpu_loads))
        gpu_assignments[min_gpu].append(seq)
        gpu_loads[min_gpu] += seq.tokens
    
    return gpu_assignments, gpu_loads

# 장점: 이론적으로 2배 이내 optimal 보장
# 단점: 전체 작업을 미리 알아야 함

2.3 Work Stealing

class WorkStealingScheduler:
    def __init__(self, gpus):
        self.gpu_queues = [deque() for _ in range(gpus)]
        self.gpu_loads = [0] * gpus
    
    def assign_initial(self, sequences):
        """초기 배치"""
        for i, seq in enumerate(sequences):
            gpu_id = i % len(self.gpu_queues)
            self.gpu_queues[gpu_id].append(seq)
            self.gpu_loads[gpu_id] += seq.tokens
    
    def steal_work(self, idle_gpu):
        """유휴 GPU가 다른 GPU에서 작업 훔치기"""
        # 가장 바쁜 GPU 찾기
        max_load_gpu = self.gpu_loads.index(max(self.gpu_loads))
        
        if (self.gpu_loads[max_load_gpu] > self.gpu_loads[idle_gpu] * 1.5 
            and len(self.gpu_queues[max_load_gpu]) > 1):
            
            # 작업 훔치기
            stolen_seq = self.gpu_queues[max_load_gpu].pop()
            self.gpu_queues[idle_gpu].append(stolen_seq)
            
            self.gpu_loads[max_load_gpu] -= stolen_seq.tokens
            self.gpu_loads[idle_gpu] += stolen_seq.tokens

# 장점: 런타임 동적 재분배
# 단점: 통신 오버헤드, 복잡한 동기화

3. 고급 분배 전략들

3.1 Bin Packing Algorithms

First Fit Decreasing (FFD)

def first_fit_decreasing(sequences, gpu_capacity):
    """GPU 용량 제한이 있을 때 사용"""
    sorted_seqs = sorted(sequences, key=lambda x: x.tokens, reverse=True)
    gpu_assignments = []
    gpu_loads = []
    
    for seq in sorted_seqs:
        # 들어갈 수 있는 첫 번째 GPU 찾기
        placed = False
        for i, load in enumerate(gpu_loads):
            if load + seq.tokens <= gpu_capacity:
                gpu_assignments[i].append(seq)
                gpu_loads[i] += seq.tokens
                placed = True
                break
        
        if not placed:
            # 새 GPU 필요
            gpu_assignments.append([seq])
            gpu_loads.append(seq.tokens)
    
    return gpu_assignments, gpu_loads

# 장점: 메모리 제약 고려
# 단점: GPU 수가 미리 정해지지 않음

Best Fit Decreasing (BFD)

def best_fit_decreasing(sequences, gpu_capacity):
    """가장 딱 맞는 GPU에 배치"""
    sorted_seqs = sorted(sequences, key=lambda x: x.tokens, reverse=True)
    gpu_assignments = []
    gpu_loads = []
    
    for seq in sorted_seqs:
        best_gpu = -1
        min_remaining = float('inf')
        
        # 가장 적은 여유 공간을 가진 GPU 찾기
        for i, load in enumerate(gpu_loads):
            remaining = gpu_capacity - load
            if remaining >= seq.tokens and remaining < min_remaining:
                min_remaining = remaining
                best_gpu = i
        
        if best_gpu != -1:
            gpu_assignments[best_gpu].append(seq)
            gpu_loads[best_gpu] += seq.tokens
        else:
            # 새 GPU 필요
            gpu_assignments.append([seq])
            gpu_loads.append(seq.tokens)
    
    return gpu_assignments, gpu_loads

# 장점: 공간 효율성 최대화
# 단점: 탐색 오버헤드

3.2 Load Balancing with Prediction

def predictive_load_balancing(sequences, gpus, performance_model):
    """GPU별 성능 예측 모델 사용"""
    gpu_loads = [0] * gpus
    gpu_assignments = [[] for _ in range(gpus)]
    
    for seq in sequences:
        predicted_times = []
        for gpu_id in range(gpus):
            # 각 GPU에서의 예상 실행 시간 예측
            current_load = gpu_loads[gpu_id]
            predicted_time = performance_model.predict(
                gpu_id, current_load, seq.tokens, seq.type
            )
            predicted_times.append(predicted_time)
        
        # 가장 빨리 끝날 GPU 선택
        best_gpu = predicted_times.index(min(predicted_times))
        gpu_assignments[best_gpu].append(seq)
        gpu_loads[best_gpu] += seq.tokens
    
    return gpu_assignments, gpu_loads

# 장점: GPU별 특성과 작업 유형 고려
# 단점: 정확한 성능 모델 필요

4. 성능 비교 시뮬레이션

import random
import numpy as np

def simulate_workload():
    """멀티모달 워크로드 시뮬레이션"""
    sequences = []
    for i in range(100):
        if random.random() < 0.3:  # 30% 비디오 (큰 작업)
            tokens = random.randint(800, 2000)
            seq_type = "video"
        elif random.random() < 0.6:  # 30% 이미지 (중간 작업)
            tokens = random.randint(200, 600)
            seq_type = "image"
        else:  # 40% 텍스트 (작은 작업)
            tokens = random.randint(50, 300)
            seq_type = "text"
        
        sequences.append({
            'id': f'seq_{i}',
            'tokens': tokens,
            'type': seq_type
        })
    
    return sequences

def evaluate_balance(gpu_loads):
    """로드 밸런싱 품질 평가"""
    if not gpu_loads:
        return 0
    
    mean_load = np.mean(gpu_loads)
    std_load = np.std(gpu_loads)
    
    # 변동계수 (Coefficient of Variation)
    cv = std_load / mean_load if mean_load > 0 else float('inf')
    
    # 최대/최소 비율
    max_min_ratio = max(gpu_loads) / min(gpu_loads) if min(gpu_loads) > 0 else float('inf')
    
    return {
        'cv': cv,
        'max_min_ratio': max_min_ratio,
        'std': std_load,
        'loads': gpu_loads
    }

# 시뮬레이션 실행
sequences = simulate_workload()
gpus = 4

results = {}
results['static_rr'] = evaluate_balance([250, 750, 1200, 400])  # 예시
results['weighted_rr'] = evaluate_balance([800, 600, 700, 650])
results['least_loaded'] = evaluate_balance([720, 680, 740, 710])
results['lpt'] = evaluate_balance([735, 715, 725, 720])

print("알고리즘별 밸런싱 품질:")
for name, result in results.items():
    print(f"{name}: CV={result['cv']:.3f}, Max/Min={result['max_min_ratio']:.2f}")

5. ERNIE 4.5 선택의 이유

왜 “정렬 + Least Loaded First”를 선택했나?

1. 실시간 적응성

# 스트리밍 데이터에서도 작동
def streaming_load_balance(new_sequence, gpu_loads):
    min_gpu = gpu_loads.index(min(gpu_loads))
    gpu_loads[min_gpu] += new_sequence.tokens
    return min_gpu

2. 멀티모달 특성 고려

# 모달리티별 다른 처리 비용
def multimodal_cost(sequence):
    cost = 0
    if sequence.text_tokens:
        cost += sequence.text_tokens * 1.0  # 텍스트 기본 비용
    if sequence.vision_tokens:
        cost += sequence.vision_tokens * 0.33  # 비전 전문가 1/3 크기
    if sequence.video_frames:
        cost += sequence.video_frames * sequence.vision_tokens * 0.1
    return cost

3. 구현 단순성 vs 성능 트레이드오프

Work Stealing: 너무 복잡, 통신 오버헤드
Bin Packing: GPU 수 고정 필요
Predictive: 성능 모델링 복잡성

4. 32% 성능 향상 달성 실제 벤치마크에서 naive 방법 대비 상당한 개선 확인

6. 알고리즘 선택 가이드

상황	추천 알고리즘	이유
균등한 작업 크기	Static Round-Robin	간단하고 효과적
가변 작업 크기	LPT + Least Loaded	ERNIE 4.5 방식
GPU 성능 차이	Weighted Round-Robin	하드웨어 특성 고려
메모리 제약	Bin Packing	용량 제한 처리
동적 워크로드	Work Stealing	런타임 재분배
복잡한 비용 모델	Predictive	정확한 예측 가능 시

ERNIE 4.5의 선택은 멀티모달 훈련의 특성(가변 길이, 모달리티별 다른 비용)과 실용성(구현 복잡도, 실시간 처리) 사이의 최적 균형점을 찾은 결과

Level 2: Fine-grained Dynamic Balanced Partitioning

Packed Sequence Parallelism (PSP)

기존 Sequence Parallelism은 모델 파라미터를 나누었지만, PSP는 sequence를 나눕니다.

원본 packed sequence: [토큰1, 토큰2, ..., 토큰100]
GPU 0이 받은 부분: [토큰1, 토큰2, ..., 토큰25]
GPU 1이 받은 부분: [토큰26, 토큰27, ..., 토큰50]  
GPU 2가 받은 부분: [토큰51, 토큰52, ..., 토큰75]
GPU 3이 받은 부분: [토큰76, 토큰77, ..., 토큰100]

Attention 연산에서의 특별 처리

Attention은 전체 시퀀스를 봐야 하므로 특별한 처리가 필요

Attention 계산 전
All-to-all communication으로 시퀀스 길이와 attention head 차원 교환

GPU 0: [25 토큰, head 0] → [100 토큰, head 0의 1/4]
GPU 1: [25 토큰, head 1] → [100 토큰, head 1의 1/4]  
GPU 2: [25 토큰, head 2] → [100 토큰, head 2의 1/4]
GPU 3: [25 토큰, head 3] → [100 토큰, head 3의 1/4]

Attention 계산 후
다시 all-to-all로 원래 분할 방식으로 복원

성능 향상 이 계층적 로드 밸런싱으로 32% 전체 성능 향상을 달성

8.3 Zero Cost Checkpoint (ZCC) 혁신

기존 체크포인트의 문제

훈련 중단 → 체크포인트 저장 (몇 분 소요) → 훈련 재개

대규모 모델에서는 체크포인트 저장에 많은 시간이 걸려 훈련 효율성이 떨어집니다.

ZCC의 핵심 관찰

파라미터와 옵티마이저 상태는 옵티마이저가 실행되는 순간에만 바뀝니다.

훈련 스텝 구조
Forward pass (파라미터 변화 없음)
Backward pass (파라미터 변화 없음)  
Communication (파라미터 변화 없음)
Optimizer step (파라미터 변화!)

ZCC 구현 전략

훈련 프레임워크 측면

충돌 연산과 비충돌 연산 분류

충돌 연산: 노드 간 통신 (Pipeline send/receive, ViT gather/scatter)
비충돌 연산: Attention, Dense FFN, 노드 내 통신

DtoH (Device to Host) 복사 최적화

충돌 연산 중: DtoH 복사 중단
비충돌 연산 중: DtoH 복사 수행 (PCIe 버스 공유 안 함)

세밀한 분해

큰 파라미터 텐서를 작은 청크로 나누어
비충돌 연산 시간에 맞춰 조금씩 복사

클러스터 측면

장애 노드 감지 시 즉시 대응

장애 감지 → 모든 건강한 NIC 활용 → 적응적 대역폭 최대화
→ 최신 메모리 체크포인트를 새 건강한 노드로 RDMA P2P 전송

복구 연산과 전송 오버랩

메모리 체크포인트 전송과 동시에
- 새 노드 환경 초기화
- 네트워크 설정  
- 소프트웨어 로딩
모든 과정이 병렬로 진행됨

수학적 성능 모델

\[T_{\text{recovery}} = \max(T_{\text{transfer}}, T_{\text{initialization}})\]

기존에는 두 시간이 순차적으로 더해졌지만, 이제는 더 긴 시간 하나만 소요됩니다.

실제 성능

종단간 자동 복구 시간: 8분 미만
10,000-GPU 클러스터에서 98% 이상 효과적 훈련 시간 유지

9. 실험 결과 및 핵심 발견

9.1 언어 모델 성능 분석

Pre-trained Models 성과

ERNIE-4.5-300B-A47B-Base vs DeepSeek-V3-671B-A37B-Base

28개 벤치마크 중 22개에서 승리
더 적은 파라미터로 더 좋은 성능 (효율성 우수)

특별히 뛰어난 영역

중국어 태스크: CMMLU 91.2% vs 88.2%, ChineseSimpleQA 72.2% vs 64.8%
지식 기반 QA: 반복적 데이터 개선과 고품질 합성 데이터의 효과

ERNIE-4.5-21B-A3B-Base의 파라미터 효율성

ERNIE 4.5 (21B 총 파라미터) vs Qwen3 (30B 총 파라미터)
= 70% 크기로 동등하거나 더 나은 성능

특히 BBH(77.5% vs 72.7%)와 CMATH(93.7% vs 88.9%)에서 뛰어난 성능을 보였습니다.

Post-trained Models 성과

지시 따르기 능력

IFEval: 88.0% (경쟁 모델들: 82.3~87.4%)
Multi-IF: 76.6% (경쟁 모델들: 66.9~70.8%)

지식 정확성

SimpleQA: 45.9% (GPT-4.1: 40.2%, DeepSeek-V3: 27.3%)
ChineseSimpleQA: 77.1% (다른 모델들 대비 압도적)

핵심 발견: Unified Rewarding System의 정교한 설계가 지시 따르기와 지식 활용 능력을 크게 향상시켰습니다.

9.2 멀티모달 성능의 결과

Non-Thinking Mode 우수성

시각적 인지 능력

CountBench: 93.3% (경쟁 모델 중 최고)
CV-Bench: 85.5%
RealWorldQA: 75.2%

문서/차트 이해

OCRBench: 883 (OpenAI-o1: 761)
DocVQA: 94.3% (OpenAI-o1: 81.0%)
ChartQA: 86.4% (OpenAI-o1: 80.4%)

비디오 분석

VideoMME w/subs: 79.7%
LongVideoBench: 66.2%

기술적 혁신의 효과: 타임스탬프 렌더링과 적응형 해상도 처리가 비디오 이해 능력을 크게 향상시켰습니다.

Thinking Mode의 추론 능력

수학적 추론

MathVista: 78.9% (thinking) vs 74.9% (non-thinking)
약 4% 포인트 향상으로 사고 과정의 명시적 모델링 효과 입증

복합 추론

MMMU: 67.3% (thinking) vs 58.9% (non-thinking)
VisualPuzzle: 41.0% (thinking) vs 34.6% (non-thinking)

상호 향상 효과 흥미롭게도, thinking과 non-thinking 모드의 공동 훈련이 두 모드 모두를 향상시켰는데, 이는 서로 다른 추론 스타일이 상호 보완적으로 작용함을 의미합니다.

9.3 시스템 성능: 실용적 배포의 혁신

훈련 효율성

MFU (Model FLOPs Utilization): 47% (2016개 H800 GPU)
이는 이론적 최대 계산량의 거의 절반을 실제로 활용한다는 의미

추론 성능

입력 처리량: 56k TPS per H800 노드
출력 생성량: 18k TPS per H800 노드
지연시간: 50ms TPOT 제약 하에서 달성

배포 접근성

최대 모델 배포 옵션
- 8개 GPU (8-bit 파라미터)
- 4개 GPU (4-bit 파라미터)  
- 1개 GPU (2-bit 파라미터, 141GB H20)

장애 허용성

10,000-GPU 클러스터에서 98% 효과적 훈련 시간
평균 복구 시간: 8분 미만

10. 종합 분석: 혁신의 의미

10.1 아키텍처 혁신의 파급효과

Heterogeneous MoE의 패러다임 전환 기존의 “모든 모달리티를 똑같이 처리”하는 방식에서 “각 모달리티의 특성을 살리면서 협력”하는 방식으로의 전환입니다.

수학적 우아함 Router Orthogonalization Loss와 Token-Balanced Loss는 단순해 보이지만, 멀티모달 학습의 근본적 문제들을 해결하는 우아한 솔루션입니다.

실용적 영향 이론적 개선이 실제 성능 향상으로 직결되었습니다 (28개 벤치마크 중 22개에서 승리).

10.2 시스템 최적화의 혁신성

Zero Cost Checkpoint 단순한 아이디어이지만 대규모 훈련의 실용성을 근본적으로 바꾸었습니다. 98% 효과적 훈련 시간은 이전에는 불가능했던 수준입니다.

Hierarchical Load Balancing 멀티모달 훈련의 근본적 도전과제였던 가변 길이 처리를 체계적으로 해결했습니다.

FP8과 양자화 혁신 CCQ 2-bit 양자화는 이론적 우아함과 실용적 효과를 모두 달성한 사례입니다.

10.3 미래 연구에 대한 시사점

모달리티별 전문화 패러다임 ERNIE 4.5의 성공은 미래 멀티모달 모델이 모달리티별 전문화와 cross-modal 협력의 균형을 찾아야 함을 시사합니다.

Progressive Learning의 중요성 PRL의 성공은 복잡한 능력을 단계적으로 구축하는 것이 효과적임을 보여줍니다.

시스템과 알고리즘의 통합 설계 ERNIE 4.5는 알고리즘 혁신과 시스템 최적화가 통합적으로 설계될 때 시너지 효과가 극대화됨을 보여주는 사례입니다.

Recap

1. 개요 및 배경

1.1 ERNIE 4.5 모델 패밀리 소개

ERNIE 4.5는 Baidu에서 개발한 대규모 멀티모달 AI 모델 패밀리로, 텍스트, 이미지, 비디오를 통합적으로 처리할 수 있는 능력을 갖추고 있습니다. 이 모델 패밀리는 10개의 서로 다른 변형으로 구성되어 있으며, Mixture-of-Experts (MoE) 아키텍처를 기반으로 합니다.

모델 구성

MoE 모델: 47B와 3B 활성 파라미터
최대 424B 총 파라미터 (최대 모델)
Dense 모델: 0.3B 파라미터
모든 모델이 Apache 2.0 라이선스로 공개

1.2 주요 목표와 도전과제

현재 멀티모달 AI 모델 개발에서 직면하는 주요 도전과제는 다음과 같습니다:

서로 다른 모달리티 간의 효율적인 정보 통합
대규모 모델의 안정적인 훈련
추론과 일반적인 이해 능력의 균형
실용적인 배포와 추론 효율성

핵심 인사이트: ERNIE 4.5는 기존의 단순한 모달리티 융합 방식과 달리, 각 모달리티에 특화된 전문가(expert)와 공유 전문가를 분리하여 모달리티 간 간섭을 최소화하면서도 상호 학습을 가능하게 만듦.

2. 아키텍처 혁신

2.1 Heterogeneous MoE 아키텍처

ERNIE 4.5의 가장 핵심적인 혁신은 Heterogeneous MoE 구조입니다. 기존의 MoE 모델들이 단일 모달리티에 최적화되어 있었다면, ERNIE 4.5는 멀티모달 환경에서의 MoE를 재설계했습니다.

구조적 특징

텍스트 전문가 (Text Experts): 텍스트 토큰만 처리
비전 전문가 (Vision Experts): 비전 토큰만 처리, 텍스트 전문가 파라미터의 1/3 크기
공유 전문가 (Shared Experts): 모든 모달리티의 토큰 처리
Self-Attention: 모든 토큰에 대해 공유

수식적 표현 $\text{MoE Output} = \text{SharedExperts}(\text{AllTokens}) + \text{ModalityExperts}(\text{SpecificTokens})$

다른 연구와의 차이점: 기존 연구들(Wang et al., Lin et al.)과 달리, ERNIE 4.5는 attention 레이어는 dense하게 유지하면서 FFN 레이어에서만 MoE 라우팅을 적용하여 cross-modal interaction을 보존합니다.

모달리티 분리 라우팅 전략 멀티모달 훈련에서 MoE 라우터는 데이터 분포의 급격한 변화로 인해 불안정해질 수 있습니다. ERNIE 4.5는 이를 해결하기 위해 modality-isolated routing을 제안합니다.

2.2 비전 인코더 설계

적응형 해상도 변환 기존의 ViT가 고정된 정사각형 입력을 요구했던 것과 달리, ERNIE 4.5는 이미지의 원본 종횡비를 최대한 보존합니다.

높이와 너비를 독립적으로 ViT 패치 크기의 배수로 리사이징
2D Rotary Position Embedding (RoPE) 적용
이미지 패킹 기술로 배치 효율성 향상

비디오 처리 비디오는 프레임 시퀀스로 처리되지만, 시퀀스 길이 제약과 시간적 커버리지 문제를 해결하기 위해 적응형 비디오 샘플링 전략을 사용합니다.

비디오 지속시간과 가용 시퀀스 길이에 따른 동적 프레임/해상도 조정
타임스탬프 렌더링: 각 프레임에 절대 타임스탬프를 오버레이하여 시간적 이해 향상

핵심 인사이트: 타임스탬프 렌더링은 position embedding이나 텍스트 토큰 기반 시간 인코딩과 달리, 추가 토큰 소비 없이 명시적인 시간적 단서를 제공합니다.

2.3 어댑터와 멀티모달 Position Embedding

어댑터 설계 비전과 텍스트 표현을 통합 임베딩 공간으로 정렬하기 위한 모달리티 브리징 모듈입니다.

공간 압축: 2×2 패치의 4배 토큰 수 감소
시간 압축: 시퀀스 길이 2배 감소
픽셀 셔플 기법으로 특징 융합

3D RoPE 텍스트, 이미지, 비디오의 통합 처리를 위한 3차원 위치 임베딩 체계

\[\text{3D RoPE}: \text{temporal, height, width 축에 대한 독립적 주파수 할당}\]

3. Pre-Training 전략

3.1 데이터 구성과 품질 관리

ERNIE 4.5의 pre-training은 대규모 텍스트 및 멀티모달 데이터셋을 기반으로 하며, 포괄적인 데이터 품질 필터링 파이프라인을 구현합니다.

데이터 소스

웹 페이지, 학술 논문, 문서
이미지, 비디오
합성 모달리티 변환 데이터

품질 관리 프로세스

데이터 노이즈 제거 및 합성: 휴리스틱 + 모델 기반 필터링
데이터 분석: 언어, 지식, 응용, 품질 측면에서 분류
Human-Model-in-the-Loop 데이터 개선: 지속적인 품질 향상

지식 기반 데이터 DIKW(Data-Information-Knowledge-Wisdom) 프레임워크에 영감을 받아 5개 지식 레벨로 분류하고, 고가치 데이터의 희소성을 해결하기 위해 key-point 기반 데이터 합성 방법을 적용합니다.

3.2 REEAO: Bitwise-Deterministic Pre-Training Data Manager

핵심 혁신: REEAO(Record Everything Everywhere All at Once)는 대규모 훈련에서 발생하는 데이터 중복이나 누락 문제를 해결하는 데이터 플로우 매니저입니다.

5가지 핵심 원칙

Reproducibility: 재현가능성
Efficiency: 효율성
Elasticity: 탄력성
Adaptivity: 적응성
Observability: 관찰가능성

REEAO는 훈련 노드 수, 분산 전략, 글로벌 배치 크기, 컨텍스트 길이 변화에도 bitwise-deterministic 토큰 시퀀스를 보장합니다.

3.3 단계별 Pre-Training Recipe

Stage I: Text-Only Training

Short-Context 단계

수조 개의 순수 텍스트 토큰으로 대규모 pre-training
8K 시퀀스 길이에서 핵심 언어 능력 개발

Long-Context 단계

RoPE 주파수 베이스 조정: 10K → 160K → 500K
시퀀스 길이 확장: 32K → 128K
16K 이상 문서의 업샘플링

Stage II: Vision-Only Training

Vision Encoder 단계

소규모 언어 모델과 함께 비전 인코더 pre-training
대규모 이미지-텍스트 쌍 데이터셋 활용

Vision Pre-Alignment 단계

LLM 파라미터 동결
비전 어댑터, 비전 전문가, 비전 라우터 훈련
비전 전문가는 텍스트 전문가에서 구조적 프루닝으로 초기화

Vision Integration 단계

비전 인코더 해제하여 전체 비전 경로 공동 최적화

Stage III: Joint Multimodal Training

Short-Context Multimodal

전체 모델 해제하여 텍스트, 이미지, 비디오 혼합 데이터로 훈련

Long-Context Multimodal

128K 컨텍스트 길이로 확장

3.4 모델 최적화 기법

Router Orthogonalization Loss MoE 모델의 전문가 동질화 문제를 해결하기 위해 라우터 가중치 간 직교성을 촉진합니다.

\[L_{orth} = \sum_{i=1}^{k} \sum_{j=1}^{k} \|\hat{w}_i^T \hat{w}_j - \delta_{ij}\|^2\]

여기서 $\hat{w}i = \frac{w_i}{|w_i|_2}$이고, $\delta{ij}$는 크로네커 델타입니다.

기술적 세부사항: 이 손실은 Adam 옵티마이저의 그래디언트 추정을 방해하지 않도록 AdamW와 유사한 방식으로 라우터 가중치를 직접 업데이트합니다.

Token-Balanced Loss 멀티모달 훈련에서 텍스트 토큰만 손실에 기여하므로, 샘플 간 텍스트 토큰 비율 차이로 인한 그래디언트 분산을 줄입니다.

\[L_{balanced}^{(i)} = \frac{1}{|U_i| + |M_i|} \sum_{j \in U_i} \ell_j^{(i)}\]

여기서 $U_i$는 마스크되지 않은 영역, $M_i$는 마스크된 영역입니다.

3.5 Exponential Moving Average (EMA) 분석

이론적 인사이트: EMA를 학습률 감소의 관점에서 분석하여, EMA가 파라미터 업데이트에 지수적 가중치를 적용하는 것을 보입니다.

EMA 파라미터는 다음과 같이 표현

\[\theta_{EMA}^n = \theta_0 + \sum_{i=0}^{n-1} \eta_i^{(\alpha)} \delta_i\]

여기서 $\eta_i^{(\alpha)} = 1 - \alpha^{n-i}$는 효과적 학습률입니다.

Effective Decay Window 제어 원하는 decay window 크기 $\hat{W}$에 대해 적절한 EMA decay coefficient를 선택할 수 있습니다:

\[\hat{\alpha} = \exp\left(\frac{1}{\hat{W}} \log \epsilon\right)\]

4. Post-Training 과정

4.1 Language Models Post-Training

Supervised Fine-Tuning 2.3M 샘플로 구성된 데이터셋을 10개 도메인으로 체계적으로 분류합니다:

과학/수학, 코딩, 논리, 정보처리, 창작, 다국어, 지식 QA, 멀티턴/역할놀이, 안전성

추론과 비추론 태스크로 분리하여, 추론 데이터에는 복잡한 사고 연쇄(CoT)가 필요한 태스크를, 비추론 데이터에는 정확성과 간결성이 중요한 태스크를 포함합니다.

Unified Rewarding System 추론과 비추론 태스크에 대해 서로 다른 리워드 조합을 사용합니다.

추론 태스크

Rule-based LLM (RLLM): 참조 답안 기반 평가
Sandbox: 프로그래밍 태스크의 격리된 실행 환경
Reference-Guided Discriminative Reward Model (RDRM): 참조 답안 가이드 점수 산정

비추론 태스크

Checklist-Aware Verifiers: 명시적 기준 정의 및 평가
Generative Reward Models (GRM): 다차원 평가 기준과 동적 피드백
Discriminative Reward Models (DRM): 전통적 RL 프레임워크

Progressive Reinforcement Learning (PRL) 3단계 강화학습 알고리즘으로 구성

논리 단계: 논리 코퍼스로만 훈련하여 논리적 분석과 추상적 추론의 기초 구축
수학/프로그래밍 단계: 구조적 표현력과 실행 정밀도가 요구되는 태스크로 확장
일반 단계: 추론/비추론 태스크를 포함한 일반 데이터셋으로 일반화

Unified Preference Optimization (UPO) 기존 PPO의 단일 응답 최대화 방식과 달리, 쌍별 비교 신호를 통합합니다:

\[L_{UPO} = L_{PPO} + L_{DPO}\]

다른 연구와의 차이점: UPO는 온라인/오프라인 버전으로 구분되며, 온라인 UPO는 각 RL 반복에서 rejection sampling으로 선호 쌍을 구성하고, 오프라인 UPO는 RL 훈련 전에 모든 선호 데이터를 미리 생성합니다.

4.2 Vision-Language Models Post-Training

Supervised Fine-tuning 프레임워크 이미지 이해와 추론 능력 강화를 위한 3단계 프로세스입니다.

데이터 구성 VLM이 기초적인 지각적 이해에서 어려움을 겪는다는 관찰에 기반하여, 고품질 지각 데이터를 합성합니다:

프로그래밍적 퍼즐, 기하학적 도형, 수학 함수 생성
실제 STEM 이미지에 대한 세밀한 캡션 합성

캡션을 제약 최적화 문제로 공식화하여, 텍스트 전용 추론 모델이 시각적 입력 없이도 관련 질문을 해결할 수 있는 이미지 설명을 생성합니다.

Thinking and Non-Thinking Joint Training

Step 1: Text-only Reasoning Cold Start

수학, 과학, 코드 생성, 지시 따르기, 대화를 포함한 다양한 텍스트 전용 추론 데이터 수집
Agent 기반 및 규칙 기반 필터로 결함 있는 논리 제거

흥미로운 발견: 텍스트 데이터로만 훈련했음에도 불구하고, 모델이 “이미지를 다시 살펴보겠습니다”와 같은 멀티모달 추론 행동을 나타냅니다.

Step 2: Reject Sampling for Multimodal Enhancement

Step 1 모델을 기반으로 STEM, 차트 분석, 문서 이해, 창작에 대한 추론 데이터 생성
검증 가능한 리워드 메커니즘을 통한 체계적 품질 보장

Step 3: Thinking and Non-Thinking Fusion 두 가지 접근법 사용

혼합 훈련: 비추론 데이터에 빈 thinking 태그 <think>\n\n</think> 추가
전문가 병합: 비추론 모델의 멀티모달 전문가를 추론 모델로 전송

Reinforcement Learning with Verifiable Rewards (RLVR)

Visual STEM: 정답이 있는 이미지 기반 질문으로 RLVR에 적합 Visual Puzzles: 패턴 인식과 그래프 추론이 포함된 10K 이상의 시각적 퍼즐 UI2Code: UI 디자인 이미지에서 HTML 코드 생성

평가 방법의 혁신: 기존의 \boxed{} 형식 매칭 대신, 두 개의 LLM을 사용하여 응답의 내부 일관성과 최종 답안의 정확성을 별도로 평가합니다.

Hybrid Reinforcement Learning RLVR과 RLHF를 통합한 통합 강화학습 프레임워크를 설계하여, 추론과 일반 능력 모두에서 우수한 성능을 달성합니다.

5. Training Framework 최적화

5.1 Heterogeneous Parallelism for Multimodal Model Training

ERNIE 4.5의 멀티모달 특성과 대규모 MoE 아키텍처는 분산 훈련에서 상당한 시스템적 도전을 제시합니다.

핵심 도전과제

ViT 인코더(630M 파라미터)와 MoE 백본(424B 파라미터) 간 규모 차이
서로 다른 계산 복잡도와 메모리 요구사항
가변 해상도 훈련에서의 로드 밸런싱

Heterogeneous Parallelism Architecture ViT 인코더는 모든 디바이스에 복제되고, MoE 백본의 하이브리드 병렬성 토폴로지 내에서 데이터 병렬성 차원이 중첩됩니다.

Forward Pass

각 디바이스의 ViT 인코더가 비전 특징을 독립적으로 계산
→ MoE 백본의 첫 번째 파이프라인 단계로 수집
→ 파이프라인 병렬성 단계를 통한 순방향 전파

Backward Pass

MoE 백본의 역방향 전파 완료
→ 비전 특징 그래디언트를 각 파이프라인 단계로 분산
→ ViT 인코더에서 표준 자동 미분 역방향 전파
→ 모든 디바이스에서 ViT 파라미터 그래디언트 all-reduce 동기화

Hierarchical Load Balance Strategy

Level 1: Coarse-grained Load Balance

토큰 수에 따라 모든 packed sequence를 오름차순 정렬
Round-robin 분할 알고리즘으로 각 디바이스에 분배하여 총 토큰 수 균형 맞춤

Level 2: Fine-grained Dynamic Balanced Partitioning

Attention 외부: Packed Sequence Parallelism (PSP) 전략 사용
Attention 내부: 시퀀스 길이와 attention head 차원을 교환하는 all-to-all 통신

성능 향상: 계층적 로드 밸런싱 전략으로 ERNIE-4.5-VL-424B-A47B-Base는 로드 밸런싱 없는 기준선 대비 최대 32% 종단간 멀티모달 훈련 성능 향상을 달성했습니다.

5.2 Hybrid Parallelism for MoE Backbone

Intra-Node Expert Parallelism 비용이 많이 드는 노드 간 전문가 병렬성 통신을 피하기 위해 모델 아키텍처와 구성을 설계했습니다.

기존 MoE 구현과 달리, gate probability 곱셈 연산자를 전문가 계산 블록 내부로 재배치하여 두 번째 all-to-all 출력 텐서를 소비 후 즉시 해제할 수 있게 합니다.

Memory-Efficient Pipeline Scheduling 대규모 클러스터 훈련에서 고정된 글로벌 배치 크기를 유지하면서 그래디언트 축적 단계를 줄이면 파이프라인 버블 시간 비율이 증가합니다.

메모리 효율적 가상 파이프라인 스케줄링

마지막 파이프라인 단계가 손실 함수의 순방향 계산을 완료하면 즉시 역방향 계산 시작
손실 함수의 활성화 메모리를 즉시 해제
F-then-B 스케줄링에서 파라미터 그래디언트 해제 기법 도입

5.3 FP8 Mixed Precision Training

ERNIE 4.5는 DeepSeek-V3와 유사한 양자화 전략을 MoE FFN 모듈에 적용하여, E4M3 FP8 수치 형식을 사용합니다.

Fine-Grained Memory Optimization

Up-gate Linear: BF16 텐서 대신 FP8 입력 활성화 $X_{FP8}$ 보존
Down Linear: 두 가지 옵션 제공 - BF16 출력 텐서 보존 또는 $X_{FP8}$를 사용한 재계산

FP8 Quantization Operator Fusion

순방향 전파에서 순열과 FP8 양자화 융합
순방향 및 역방향 전파에서 SwiGLU, gate probability 곱셈, FP8 양자화 융합

FP8 Communication Optimization

순방향 전파: 첫 번째 all-to-all 통신을 FP8 정밀도로 수행
역방향 전파: 두 번째 all-to-all 통신을 up-gate linear 가중치 그래디언트 계산과 오버랩

5.4 Computational Optimizations

Operator-Level Recomputation 기존의 모듈 레벨 재계산과 달리, ERNIE 4.5는 연산자 레벨 재계산 전략을 채택하여 메모리와 계산 간의 더 세밀한 균형을 제공합니다.

# 기존 방식의 문제점
y1 = op1(x)  # y1을 보존해야 함
y2 = op2(y1) # y1이 재계산될 예정인데도 보존
y3 = op3(y2)

# ERNIE 4.5의 해결책
y1 = op1(x)
y2 = OperatorLevelRecomputation()(op2, y1)  # op2의 출력만 보존
y3 = op3(y2)

FlashMask for Flexible Attention ERNIE 4.5 멀티모달 pre-training에서 요구되는 다양한 attention mask를 수용하기 위해 FlashMask를 제안합니다. 메모리 복잡도를 $O(N^2)$에서 $O(N)$으로 감소시킵니다.

5.5 Framework-Native Fault Tolerance System

대규모 GPU 클러스터 사용으로 인한 높은 장애 중단율을 완화하기 위해 모델, 프레임워크, 하드웨어 전반에 걸친 프레임워크 네이티브 장애 허용 시스템을 제안합니다.

핵심 구성요소

TraceHang: 병렬성 정보와 통신 기록을 활용하여 명시적 장애 없는 hang의 원인을 자동 진단

Online SDC Scanner: 파이프라인 병렬성의 유휴 시간(버블 타임) 동안 고정 입력으로 계산 및 통신을 수행하여 Silent Data Corruption을 온라인으로 감지

Zero Cost Checkpoint (ZCC)

훈련 프레임워크 측면: 파라미터와 옵티마이저 상태가 옵티마이저 실행 시에만 변경된다는 관찰에 기반
클러스터 측면: 장애 노드 감지 시 모든 가용 NIC를 활용하여 적응적 대역폭 최대화

성능 지표: 장애 허용 프레임워크를 활용하면 10,000-GPU 클러스터에서도 98% 이상의 효과적 훈련 시간을 유지할 수 있으며, 종단간 자동 복구 시간을 8분 미만으로 단축했습니다.

6. Inference and Deployment

6.1 Quantization 전략

ERNIE 4.5는 다양한 배포 시나리오와 하드웨어 플랫폼을 수용하기 위해 FP8, INT8, INT4, 2-bit weight-only quantization을 포함한 여러 양자화 방식을 제공합니다.

W4A8 Quantization ERNIE-4.5-300B-A47B 모델에서 전문가 가중치가 총 파라미터의 90% 이상을 차지하므로, 전문가 구성요소의 GEMM에 W4A8 양자화를 적용합니다.

주요 도전과제:

MoE에서의 느린 GPTQ: 모든 전문가 활성화와 수천 개 linear layer 최적화 필요
Inter-Node Outliers: Tensor Parallel 배포 시 가중치, 활성화, outlier가 모든 GPU 노드에 분할
Intra-Node Outliers: 각 GEMM 연산에서 가중치와 활성화 모두에 outlier가 존재하여 기존 방법들의 효과 제한

해결 방안

Multi-Expert Parallel Collaboration (MEPC)

모든 전문가를 병렬로 처리하기 위해 가중치를 연결하여 GPU의 병렬 계산 능력을 완전히 활용
활성화되지 않은 전문가에 대해서는 같은 레이어 내 활성화된 전문가들의 양자화 파라미터 평균을 사용
Hotspot-expert 병렬 GPTQ 업데이트: 토큰 활성화 빈도에 따라 중요한 전문가들을 우선적으로 최적화

Outlier Transfer Algorithm

모든 N개 GPU에서 채널별 절댓값 최대 활성화 값 수집
Up-Gate Linear의 열과 Down Linear의 행을 전역적으로 순위를 매겨 유사한 활성화 범위를 가진 가중치 채널을 같은 GPU에 배치
모든 outlier를 단일 노드로 집계하고 정규(non-outlier) 활성화를 나머지 노드에 분산

Layer-Adaptive Permutation Rotation 각 레이어의 활성화에서 outlier 분포를 사전 분석하여 가중치 또는 활성화 중 어느 쪽에 outlier smoothing을 우선할지 결정합니다.

\[x_{quantized} = \text{float8_e4m3}\left(\text{clip}\left(\frac{x_{bf16} \times \text{fp8_max}}{\text{scale}}, -448.0, 448.0\right)\right)\]

2-Bit Quantization ERNIE 4.5의 진입 장벽을 더욱 낮추기 위해 거의 무손실 2-bit 양자화 알고리즘을 구현하여 BF16 기준선 대비 모델 크기를 80% 감소시킵니다.

Convolutional Code Quantization (CCQ)를 제안하여 벡터 양자화의 고정밀도 데이터 양자화 능력과 스칼라 양자화의 낮은 계산 복잡도를 모두 보존합니다.

CCQ의 구성요소

Convolutional Codebook: 코드북과 가중치 벡터 간 선형 매핑으로 룩업 없는 코드북 구축
Hybrid Encoding: INT8과 INT16 형식으로 인코딩된 값 저장을 위한 다양한 코딩 구성
Code Clustering: 인코딩된 값의 정규분포 특성을 활용한 코딩 차원에서의 추가 압축

6.2 Inference Acceleration

W4A8 Kernel Acceleration 양자화 알고리즘과 하드웨어 아키텍처의 협업을 충분히 고려하여 효율적으로 최적화된 추론 커널을 개발했습니다.

최적화 기법

Range Mapping: INT4 범위 [-8, 7]을 [-7, 7]로 제한
Bit-Shift Conversion: 4비트 왼쪽 시프트로 INT4를 INT8로 변환하여 [-112, 112] 범위 매핑
Weight Layout Optimization: Tensor Core 호환 INT8 가중치 레이아웃을 위한 interleaved 형식 사전 패킹

성능 결과:

디코더 형태 워크로드에서 메모리 대역폭의 70%-80% 달성
인코더 형태 워크로드에서 W4A16 대비 100% 이상 속도 향상

Efficient Attention Kernel FP8와 INT8 계산에서 하드웨어 능력과 정확도의 균형을 맞추기 위해 Hopper 아키텍처 GPU에서는 FP8, Ampere 아키텍처 GPU에서는 INT8을 활용합니다.

INT8-Formatted Attention Schraudolph(1999)의 발견을 바탕으로 빠른 지수 계산을 구현합니다:

\[e^x \approx F_{float}\left(2^{23} \times \lfloor\text{scale} \times x + \text{bias}\rfloor\right)\]

dequantization 단계와 지수 연산을 단일 FMA 명령으로 병합

\[e^{x \times S_{qk}} \approx F_{float}\left(\lfloor 2^{23} \times \text{scale} \times S_{qk}\rfloor \times x + \lfloor 2^{23} \times \text{bias}\rfloor\right)\]

FP8-Formatted Attention: C4(비대칭 채널별 4비트 KV 캐시 양자화) 사용하는 attention 모듈에서 두 GEMM 연산을 FP8E4M3 형식으로 양자화합니다.

Fast Conversion: 4비트 KV 데이터를 FP8E4M3의 하위 4비트에 배치하여 UINT4-to-FP8E4M3 변환 구축
Fast Dequantization: K의 dequantization에서 다음 등가성 활용

\[P = \text{softmax}\left(\frac{(Q \times S_{qk}) \times K^T}{\sqrt{d_k}}\right)\]

Speculative Decoding ERNIE 4.5는 Multi-Token Prediction (MTP) 모듈을 탑재하여 추론 단계에서 speculative decoding을 사용합니다. 병렬 샘플링과 검증, 깊이 맞춤화된 attention 커널을 활용하여 MTP는 autoregressive decoding과 비교 가능한 TPOT(Time per output token)를 유지하면서 60% 출력 처리량 증가를 달성합니다.

6.3 Deployment 최적화

PD Disaggregation with Expert Parallelism ERNIE-4.5-300B-A47B 모델에 대해 전문가 병렬성과 결합된 PD 분리 배포를 통해 시스템 처리량과 지연시간을 최적화합니다.

Prefilling 단계: attention 모듈에 대한 tensor parallelism 없이 8-way expert parallelism (EP8) 사용
Decoding 단계: EP8에서 EP64까지 유연한 병렬화 지원
단계별 양자화: Prefilling에서는 block-wise FP8, Decoding에서는 W4A8 양자화

KV Cache Transfer: RDMA 기반 노드 간 KV 캐시 전송 모듈
All-to-All Communication: 전문가 라우팅을 위한 효율적 통신
Multi-level Load Balancing: 분산 컴퓨팅 리소스 전반의 로드 밸런싱

Multi-level Load Balancing

Data Parallelism 로드 밸런싱

글로벌 로드 인식 스케줄러가 KV 캐시 적중률과 토큰 수에 기반하여 쿼리 분배

Expert Parallelism 로드 밸런싱

동적 전문가 중복 전략과 글로벌 전문가 재스케줄링 강제 적용
가중치 사전 페칭과 비동기 로딩을 통한 극도로 낮은 지연시간 서비스 정체

PD Disaggregation 로드 밸런싱

불일치하는 PD 비율로 인한 SLO 충족 어려움과 낮은 GPU 활용률 해결
동적 역할 전환: 실시간 로드 조건에 기반하여 decoding 인스턴스가 짧은 입력 요청의 prefilling을 지능적으로 처리

성능 지표: 이러한 최적화 전략을 활용하여 ERNIE-4.5-300B-A47B는 입력 길이 2K, 출력 길이 400, 50ms TPOT 지연시간 제약 하에서 H800 노드당 56k 입력 TPS와 18k 출력 TPS의 추론 성능을 달성합니다.

7. Open-Source Development Tools

7.1 ERNIEKit

PaddlePaddle 프레임워크 기반의 ERNIE 4.5용 산업급 개발 툴킷으로, 모델 훈련과 압축 기능을 제공합니다.

Industrial-Grade High-Performance Pre-Training

하이브리드 병렬성 훈련 전략과 FP8 혼합 정밀도 최적화를 포함한 최대 ERNIE 4.5 언어 모델 pre-training의 고성능 구현

Low-Bit Quantization-Aware Fine-tuning

저정밀도 훈련과 옵티마이저 오프로딩을 통합한 새로운 FP8-QAT 솔루션
최대 ERNIE 4.5 언어 모델의 최소 GPU 요구사항을 96개에서 16개로 감소
오프라인 텐서별 FP8 양자화 지원으로 런타임 양자화 오버헤드 제거

Visual Training & Inference Interface

통합 Gradio 기반 WebUI로 ERNIE 4.5에서 제로 코드 파인튜닝, 정렬, 추론 연산 지원

7.2 FastDeploy

대규모 언어 모델과 비전 언어 모델을 위한 추론 및 배포 툴킷으로, vLLM 인터페이스와의 즉시 사용 가능한 호환성을 제공합니다.

핵심 기술 특징

PD Disaggregation with Multi-level Load Balancing

컨텍스트 캐싱을 포함한 산업급 Prefill-Decode 분리 배포 오픈소스화
통합 KV Cache 전송 설계로 NVLink와 RDMA 간 가장 효율적인 통신 링크 자동 선택

Comprehensive Low-Bit Quantized Inference Support

W8A8, W8A16, W4A8, W4A16, W2A16을 포함한 다양한 양자화 정밀도 지원
내장 2-bit weight-only 양자화 모델로 ERNIE 4.5의 배포 리소스 요구사항 감소
141GB 메모리를 가진 NVIDIA H20 GPU에서 단일 카드 추론 가능

Multi-hardware Support

PaddlePaddle의 다중 하드웨어 적응 능력 덕분에 NVIDIA GPU 외에도 Kunlunxin XPU, Hygon DCU, Ascend NPU 등 다양한 칩에서 추론 배포 지원

8. Evaluation and Results

8.1 Language Models 평가

Pre-trained Language Models 결과

ERNIE-4.5-300B-A47B-Base는 28개 벤치마크 중 22개에서 DeepSeek-V3-671B-A37B-Base를 능가하며, 모든 주요 능력 카테고리에서 선도적 성능을 보입니다.

총 파라미터 크기가 21B인 ERNIE-4.5-21B-A3B-Base가 Qwen3-30B-A3B-Base(약 70% 크기)보다 BBH와 CMATH를 포함한 여러 수학 및 추론 벤치마크에서 우수한 성능을 보여 뛰어난 파라미터 효율성을 보입니다.

Post-trained Language Models 결과

ERNIE-4.5-300B-A47B는 지시 따르기와 지식 태스크에서 상당한 강점을 보이며, IFEval, Multi-IF, SimpleQA, ChineseSimpleQA에서 최첨단 점수를 달성합니다.

하이라이트

지시 따르기: IFEval 88.0%, Multi-IF 76.6%로 경쟁 모델 대비 우수
지식 태스크: SimpleQA 45.9%, ChineseSimpleQA 77.1%로 강력한 팩트 정확도
수학 및 코딩: 대부분 벤치마크에서 Qwen3-235B-A22B를 상당히 능가

8.2 Multimodal Models 평가

Non-Thinking Mode 성능 ERNIE-4.5-VL은 이미지 세부사항 인지와 관련 지식 회상에서 강력한 능력을 보입니다.

핵심

시각적 인지: CountBench 93.3%, CV-Bench 85.5%, RealWorldQA 75.2%
문서/차트 이해: OCRBench 883, DocVQA 94.3%, ChartQA 86.4%
비디오 분석: VideoMME w/subs 79.7%, LongVideoBench 66.2%

문화적 이해 우수성: CCBench에서 뛰어난 성능으로 중국 지식과 문화에 대한 포괄적 이해를 보여주며, 이는 고품질 중국 텍스트 및 시각 데이터의 통합과 멀티모달 공동 훈련을 통한 향상 덕분입니다.

Thinking Mode 성능 ERNIE-4.5-VL-424B-A47B는 다양한 멀티모달 평가 벤치마크에서 일관되게 강력한 결과를 제공합니다.

Thinking vs Non-Thinking 비교

MathVista: 78.8% (thinking) vs 74.9% (non-thinking)
MMMU: 67.3% (thinking) vs 58.9% (non-thinking)
VisualPuzzle: 41.0% (thinking) vs 34.6% (non-thinking)

상호 향상 효과: 사고 모드가 멀티모달 추론 태스크에서 뚜렷한 장점을 제공할 뿐만 아니라, 비사고 모드도 두 모드의 공동 훈련을 통해 개선되어 두 시나리오 모두에서 견고한 수학적 문제 해결 능력과 유능한 멀티모달 이해를 보여줍니다.

Lightweight VLM 성능 ERNIE-4.5-28B-A3B는 상당히 적은 활성화 파라미터를 사용함에도 불구하고 대부분 벤치마크에서 Qwen2.5-VL-7B 및 Qwen2.5-VL-32B와 경쟁하거나 우수한 성능을 달성합니다.

9. 결론 및 기여

9.1 주요 기술 기여

아키텍처 혁신

Heterogeneous MoE: 모달리티별 전문가 분리와 공유 전문가를 통한 효율적인 멀티모달 학습
적응형 해상도 비전 인코더: 원본 종횡비 보존과 3D RoPE를 통한 시공간 이해
모달리티 분리 라우팅: 멀티모달 환경에서의 MoE 안정성 향상

훈련 최적화

Router Orthogonalization Loss: 전문가 특화 촉진
Token-Balanced Loss: 멀티모달 훈련에서의 그래디언트 안정성
EMA 이론적 분석: 학습률 감소 관점에서의 체계적 이해

시스템 최적화

Heterogeneous Parallelism: 멀티모달 모델의 효율적 분산 훈련
Zero Cost Checkpoint: 무손실 체크포인팅으로 장애 허용성 향상
FP8 Mixed Precision: 메모리와 계산 효율성 대폭 개선

9.2 실용적 영향

배포 접근성

2-bit 양자화로 141GB H20 GPU 단일 카드 배포 가능
다중 하드웨어 플랫폼 지원으로 광범위한 활용 가능
Apache 2.0 라이선스로 연구 및 상업적 사용 모두 지원

성능 벤치마크

H800 노드당 56k 입력 TPS, 18k 출력 TPS 달성
98% 이상의 효과적 훈련 시간 유지 (10,000-GPU 클러스터)
47% Model FLOPs Utilization (MFU) 달성

산업계 기여: ERNIE 4.5는 단순히 성능 향상을 넘어서, 대규모 멀티모달 모델의 실용적 배포와 효율적 훈련을 위한 포괄적 솔루션을 제공합니다. 특히 개발 툴킷 ERNIEKit과 FastDeploy의 오픈소스화를 통해 연구 커뮤니티와 산업계 모두에 실질적 가치를 제공합니다.

9.3 미래 전망

ERNIE 4.5의 성공은 다음과 같은 방향으로 발전할 수 있는 기반을 마련

더 효율적인 멀티모달 아키텍처: Heterogeneous MoE 패러다임의 확장
고급 추론 능력: Thinking/Non-thinking 모드의 더 정교한 통합
실시간 멀티모달 애플리케이션: 최적화된 추론 엔진을 통한 실용적 배포
다국어 및 문화적 이해: 특히 중국어와 중국 문화에 특화된 멀티모달 이해의 확장

post contain ""

No matching posts found containing ""

Share Your Feedback 🏝️

ERNIE 4.5 Technical Report

ERNIE 4.5 Technical Report

ERNIE 4.5 Technical Report

ERNIE 4.5

1. 전체 아키텍처

1.1 기본 설계 철학

1.2 전체 정보 흐름

2. Heterogeneous MoE: 핵심 혁신 구조

2.1 기존 MoE의 한계점 이해

2.2 ERNIE 4.5의 해결책

2.3 왜 비전 전문가를 1/3 크기로 만들었나?

2.4 Modality-Isolated Routing 작동 원리

3. 비전 처리: 적응형 해상도 시스템

3.1 기존 방식의 근본적 문제

3.2 ERNIE 4.5의 적응형 해상도 해결책

3.3 비디오 처리: 시공간 통합

4. 핵심 수학적 최적화 기법

4.1 Router Orthogonalization Loss 상세 분석

4.2 Token-Balanced Loss 상세 분석

5. EMA (Exponential Moving Average) 이론적 분석

5.1 EMA가 학습률 감소와 같다는 발견

5.2 Effective Decay Window 제어

6. Post-Training의 Progressive RL과 UPO

6.1 Progressive Reinforcement Learning (PRL) 상세

6.2 Unified Preference Optimization (UPO) 상세

7. 양자화 기술: W4A8과 CCQ

7.1 W4A8 Quantization 상세 원리

7.2 Convolutional Code Quantization (CCQ) 혁신

8. 훈련 프레임워크: 시스템 최적화

8.1 Heterogeneous Parallelism 상세 분석

8.2 Hierarchical Load Balance Strategy

문제 상황 예시

단순 Round-Robin의 문제

ERNIE 4.5의 최적화된 Round-Robin

실행 과정 시뮬레이션

Greedy 방식 실행 결과

실제 ERNIE 4.5에서의 복잡성

인사이트

로드 밸런싱 알고리즘 비교 분석

1. 기본 분배 전략들

1.1 Static Round-Robin (정적 순환)

1.2 Weighted Round-Robin (가중 순환)

2. 동적 분배 전략들

2.1 Least Loaded First (최소 부하 우선)

2.2 Longest Processing Time First (LPT)

2.3 Work Stealing

3. 고급 분배 전략들

3.1 Bin Packing Algorithms

First Fit Decreasing (FFD)

Best Fit Decreasing (BFD)

3.2 Load Balancing with Prediction

4. 성능 비교 시뮬레이션

5. ERNIE 4.5 선택의 이유

왜 “정렬 + Least Loaded First”를 선택했나?

6. 알고리즘 선택 가이드

8.3 Zero Cost Checkpoint (ZCC) 혁신

9. 실험 결과 및 핵심 발견

9.1 언어 모델 성능 분석

9.2 멀티모달 성능의 결과

9.3 시스템 성능: 실용적 배포의 혁신

10. 종합 분석: 혁신의 의미

10.1 아키텍처 혁신의 파급효과

10.2 시스템 최적화의 혁신성

10.3 미래 연구에 대한 시사점

Recap

1. 개요 및 배경

1.1 ERNIE 4.5 모델 패밀리 소개

1.2 주요 목표와 도전과제

2. 아키텍처 혁신

2.1 Heterogeneous MoE 아키텍처

2.2 비전 인코더 설계

2.3 어댑터와 멀티모달 Position Embedding

3. Pre-Training 전략

3.1 데이터 구성과 품질 관리

3.2 REEAO: Bitwise-Deterministic Pre-Training Data Manager

3.3 단계별 Pre-Training Recipe

3.4 모델 최적화 기법

3.5 Exponential Moving Average (EMA) 분석

4. Post-Training 과정