ERNIE 4.5는 멀티모달 AI의 근본적인 도전과제를 해결하려고 합니다. 기존 모델들이 텍스트와 이미지를 단순히 합쳐서 처리했다면, ERNIE 4.5는 각각의 특성을 살리면서도 서로 협력할 수 있도록 설계
핵심 아이디어: 텍스트는 순차적이고 논리적인 특성을 가지고, 이미지/비디오는 공간적이고 시각적인 특성을 가집니다. 이 둘을 같은 방식으로 처리하면 각각의 장점을 살리기 어렵습니다. (각주: 특히 같은 방식으로 처리하게 되면 이미지 처리에 과하게 비효율적으로 많은 리소스를 투입해야하며, 그래서 현재 채널이나 사이즈가 매우 제한적이며, 리사이즈하는 과정에서 정보 손실이 발생했음.)
입력 단계:
텍스트: "이 이미지를 설명해주세요"
이미지: [고양이 사진]
처리 과정
1. 텍스트 → 텍스트 토큰화 → [토큰1, 토큰2, ...]
2. 이미지 → 비전 인코더 → 비전 토큰들 → [비전토큰1, 비전토큰2, ...]
3. 어댑터에서 두 종류 토큰을 같은 차원으로 맞춤
4. Heterogeneous MoE에서 각각 전용 전문가가 처리하면서 공유 전문가도 함께 작업
5. 최종 텍스트 생성: "이 이미지에는 귀여운 고양이가..."
전통적인 MoE (Mixture of Experts)는 다음과 같이 작동
전문가 그룹을 3개로 나눔
이유 1: 시각 정보의 중복성
이유 2: 계산 효율성
기존 문제점 멀티모달 데이터로 훈련할 때, 갑자기 데이터 분포가 바뀌면 (예: 텍스트만 있다가 이미지가 갑자기 많아짐) 라우터가 어떤 전문가를 선택해야 할지 혼란스러워 함.
ERNIE 4.5의 해결책
\(P_{\text{text}}(e_i \| x_{\text{text}}) = \text{Softmax}(\text{Router}_{\text{text}}(x_{\text{text}}))_i\) \(P_{\text{vision}}(e_j \| x_{\text{vision}}) = \text{Softmax}(\text{Router}_{\text{vision}}(x_{\text{vision}}))_j\)
고정 해상도의 문제점 대부분의 비전 모델은 224×224 같은 정사각형 입력을 요구하지만, 실제 이미지는 다음과 같음
이를 억지로 정사각형으로 맞추면 이미지가 찌그러지거나 중요한 정보가 잘립니다.
단계별 처리 과정
1단계: 원본 비율 보존 리사이징
계산
결과: 1920×1088 (원본 비율 거의 보존)
2단계: 2D RoPE로 위치 인코딩
RoPE (Rotary Position Embedding) RoPE는 토큰의 위치 정보를 회전 변환으로 인코딩
1D RoPE (텍스트용) \(\text{RoPE}(x, pos) = x \cdot \cos(pos \cdot \theta) + \text{rotate}(x) \cdot \sin(pos \cdot \theta)\)
2D RoPE (이미지용) \(\text{RoPE}_{2D}(x, i, j) = \text{RoPE}_{\text{height}}(x, i) \otimes \text{RoPE}_{\text{width}}(x, j)\)
기하학적 의미
타임스탬프 렌더링의 혁신
기존 방법들은 비디오의 시간 정보를 다음과 같이 처리
ERNIE 4.5의 접근법 각 프레임의 왼쪽 위 모서리에 실제 타임스탬프를 그림으로 그려 넣습니다.
프레임 1: [00:01] 이미지 내용
프레임 2: [00:02] 이미지 내용
프레임 3: [00:03] 이미지 내용
장점
3D RoPE for Video 상세
\[\text{3D RoPE}(x, t, h, w) = \text{RoPE}_{\text{temporal}}(x, t) \otimes \text{RoPE}_{\text{height}}(x, h) \otimes \text{RoPE}_{\text{width}}(x, w)\]각 차원의 주파수 할당
직관적 의미
근본 문제: 전문가 동질화
MoE에서 여러 전문가가 있어도 시간이 지나면서 비슷한 역할을 하게 되는 문제입니다.
각주: 특히 위 내용을 판별하기 어려워지는 문제가 발생, 특히 주로 어려운 문제에 초점을 맞추면 일반화된 성능이 떨어지는 문제들이 발생해왔음.
ERNIE의 해결책: 직교성 강제
Router Orthogonalization Loss는 각 전문가의 라우터 가중치가 서로 수직이 되도록 강제
\[L_{\text{orth}} = \sum_{i=1}^{k} \sum_{j=1}^{k} \left\|\hat{w}_i^T \hat{w}_j - \delta_{ij}\right\|^2\]직관
실제 효과 실험 결과 +1.44 성능 향상을 보였는데, 이는 각 전문가가 진짜로 다른 역할을 하게 되었기 때문이라고 연구진은 해석
문제 상황 구체적 예시
멀티모달 훈련에서 다음과 같은 샘플들이 있다고 가정
샘플 1: [이미지 토큰 100개] + [텍스트 토큰 10개] → 텍스트 비율 9%
샘플 2: [이미지 토큰 20개] + [텍스트 토큰 80개] → 텍스트 비율 80%
기존 CrossEntropy Loss의 문제
\[L^{(i)} = -\frac{1}{|U_i|} \sum_{j \in U_i} \log P(y_j^{(i)} | y_{<j}^{(i)})\]\(\|U_i\|\)는 텍스트 토큰 수
결과적으로 텍스트가 적은 샘플이 과도하게 큰 그래디언트를 만들어 훈련을 불안정하게 만들게 됨.
ERNIE 4.5의 Token-Balanced Loss
\[L_{\text{balanced}}^{(i)} = \frac{1}{|U_i| + |M_i|} \sum_{j \in U_i} \ell_j^{(i)}\]개선점
이제 전체 시퀀스 길이로 정규화되어 각 샘플이 비슷한 크기의 그래디언트를 생성합니다.
전통적인 EMA 이해 \(\theta_{\text{EMA}}^t = \alpha \theta_{\text{EMA}}^{t-1} + (1-\alpha) \theta^t\)
이는 단순히 “이전 가중치와 현재 가중치의 가중평균”으로 이해되었습니다.
ERNIE 4.5의 새로운 해석
EMA를 펼치면
\[\theta_{\text{EMA}}^n = \theta_0 + \sum_{i=0}^{n-1} \eta_i^{(\alpha)} \delta_i\]핵심 발견
\(\eta_i^{(\alpha)}\)를 자세히 보면
직관적 의미
최근 업데이트일수록 작은 가중치를, 오래된 업데이트일수록 큰 가중치를 받아 학습률을 점점 줄여가며 훈련하는 것과 같은 효과를 보이게 됨.
목표 원하는 크기 $\hat{W}$의 decay window를 만들고 싶을 때, 적절한 $\alpha$ 값을 찾기
수학적 유도
임계값 $\epsilon$ (예: 0.001)을 설정하고, 효과적 학습률이 이보다 작아지는 지점을 찾음.
\(\eta_j^{(\alpha)} = 1 - \alpha^{n-j} < 1 - \epsilon\) \(\alpha^{n-j} > \epsilon\) \((n-j) \log \alpha > \log \epsilon\)
\($\log \alpha < 0\)이므로 부등호가 변경
\[n-j < \frac{\log \epsilon}{\log \alpha}\]$W = n-j$를 decay window 크기라 하면 \(W < \frac{\log \epsilon}{\log \alpha}\)
원하는 window 크기 $\hat{W}$에 대해 \(\hat{W} = \frac{\log \epsilon}{\log \alpha}\) \(\log \alpha = \frac{\log \epsilon}{\hat{W}}\) \(\alpha = \exp\left(\frac{\log \epsilon}{\hat{W}}\right)\)
실용적 적용
기존 RL의 문제점
한 번에 모든 종류의 태스크로 RL을 하면 모델이 혼란스러워하게 됨. 즉, 수학 문제를 풀다가 갑자기 창작 글쓰기를 해야 하면 어떤 스타일로 답해야 할지 모르게 됩니다.
PRL의 3단계 접근법
Stage 1: Logic Corpus
Stage 2: Math & Coding
Stage 3: General Tasks
각 단계에서 정책 $\pi_i$를 학습하고, 다음 단계는 이전 정책을 초기값으로 사용
\[\pi_1 \rightarrow \pi_2 \rightarrow \pi_3\]기존 PPO의 한계
PPO는 다음 목표함수를 최적화하는데,
\[L_{\text{PPO}} = \mathbb{E}\left[\min\left(r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t\right)\right]\]문제점 절대적인 보상값에만 의존해서 “이 답이 좋다/나쁘다”만 학습할 수 있음.
DPO (Direct Preference Optimization) \(L_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right]\)
UPO의 통합
\[L_{\text{UPO}} = L_{\text{PPO}} + \lambda L_{\text{DPO}}\]직관적 의미
Online vs Offline UPO
Online UPO 각 RL 반복에서 여러 답변을 생성하고 rejection sampling으로 선호 쌍 구성
질문: "2+2는?"
생성된 답변들: ["4", "4.0", "2+2=4", "사과"]
Rejection sampling: ("4", "사과") 쌍 선택 → "4"가 더 선호됨
Offline UPO
RL 훈련 전에 미리 모든 선호 데이터 생성하고 저장
기본 아이디어
Fast Bit-Shift Conversion 과정
1단계: Range 제한
원래 INT4 범위: [-8, -7, -6, ..., 6, 7] (16개 값)
제한된 범위: [-7, -6, -5, ..., 5, 6, 7] (15개 값)
왜 -8을 제외? 대칭성을 위해서 (양수와 음수 개수 맞춤)
2단계: Bit-Shift 변환
INT4 값: 3
4비트 왼쪽 시프트: 3 << 4 = 3 × 16 = 48
모든 INT4 값에 적용
INT4: [-7, -6, -5, ..., 6, 7]
INT8: [-112, -96, -80, ..., 96, 112]
3단계: Scale 적용
실제 가중치 값으로 변환
실제_값 = INT8_값 × scale_factor
Weight Layout Optimization
Tensor Core를 효율적으로 사용하기 위해 가중치를 특별한 순서로 배열
원래 순서: [w0, w1, w2, w3, w4, w5, w6, w7]
Interleaved: [w0, w4, w1, w5, w2, w6, w3, w7]
이렇게 하면 8개 값을 3개 명령어로 변환 가능 (효율성 대폭 향상)
기존 2-bit 양자화의 문제
CCQ의 접근
1. Convolutional Codebook
전통적인 Vector Quantization은 다음과 같이 작동
입력 벡터 → 코드북에서 가장 가까운 벡터 찾기 → 인덱스 저장
복원할 때: 인덱스 → 코드북 lookup → 벡터 복원
CCQ는 Convolutional Code를 사용하여 lookup 없이 선형 매핑 구현
입력 벡터 → Convolutional encoding → 압축된 표현
복원할 때: 압축된 표현 → 선형 변환 → 벡터 복원
2. Hybrid Encoding
4-bit 양자화를 2.75-bit로 압축: INT8 형식 사용
3-bit 양자화를 2.5-bit로 압축: INT16 형식 사용
3. Code Clustering
인코딩된 값들이 정규분포를 따른다는 관찰에 기반
인코딩된 값들: [v1, v2, v3, ..., vn]
클러스터링: {cluster1, cluster2, cluster3, cluster4}
최종 표현: 2-bit (4개 클러스터 중 하나)
전체 프로세스
원본 가중치 → Convolutional Encoding → Hybrid Encoding → Code Clustering → 2-bit 표현
복원: 2-bit → 클러스터 ID → 인코딩된 값 → 선형 변환 → 원본 가중치
수학적 표현 원본 벡터 $\mathbf{w}$를 2-bit로 압축
Convolutional Encoding
\[\mathbf{c} = \text{ConvEncode}(\mathbf{w})\]Clustering
\[\text{cluster_id} = \arg\min_k \|\mathbf{c} - \mathbf{centroid}_k\|^2\]2-bit 저장
\[\text{2bit_repr} = \text{cluster_id} \in \{0, 1, 2, 3\}\]복원 과정
\[\hat{\mathbf{w}} = \text{LinearTransform}(\mathbf{centroid}_{\text{cluster_id}})\]성능 비교
근본적 도전과제
ERNIE 4.5는 두 개의 매우 다른 구성요소를 가지고 있음
이 둘을 효율적으로 함께 훈련하는 것은 마치 자전거와 기차를 함께 운행하는 것과 같습니다.
해결책: 이종 병렬화
ViT 인코더 처리 전략
모든 GPU에 ViT 인코더 복사 (작으니까 가능)
각 GPU가 독립적으로 이미지 처리
결과를 MoE의 첫 번째 단계로 모음
MoE 백본 처리 전략
하이브리드 병렬화
- Expert Parallelism (EP): 전문가들을 여러 GPU에 분산
- Pipeline Parallelism (PP): 레이어들을 여러 GPU에 분산
- Tensor Parallelism (TP): 큰 행렬을 여러 GPU에 분산
Forward Pass 상세 과정
GPU 0: 이미지 배치 [0, 4, 8, ...] → 비전 특징
GPU 1: 이미지 배치 [1, 5, 9, ...] → 비전 특징
GPU 2: 이미지 배치 [2, 6, 10, ...] → 비전 특징
GPU 3: 이미지 배치 [3, 7, 11, ...] → 비전 특징
모든 비전 특징을 GPU 0 (PP stage 0)으로 gather
GPU 0이 텍스트 토큰과 비전 토큰을 합쳐서 처리 시작
GPU 0 (PP stage 0) → GPU 1 (PP stage 1) → ... → GPU N (PP stage N-1)
Backward Pass의 복잡성
파이프라인 역전파가 끝나면 ViT 인코더의 그래디언트를 계산해야 하는데, 문제는 자동 미분이 MoE 백본에서 끝나고 ViT까지 이어지지 않는다는 점입니다.
해결책
수학적 표현
\[\frac{\partial L}{\partial \theta_{\text{ViT}}} = \text{AllReduce}\left(\sum_{\text{local}} \frac{\partial L}{\partial \mathbf{v}_i} \frac{\partial \mathbf{v}_i}{\partial \theta_{\text{ViT}}}\right)\]문제 상황
가변 해상도 이미지와 다양한 길이의 비디오로 인해 GPU마다 계산량이 크게 달라집니다.
구체적 예시
GPU 0: [고해상도 이미지 1개, 토큰 1000개] → 과부하
GPU 1: [저해상도 이미지 5개, 토큰 500개] → 여유
GPU 2: [긴 비디오 1개, 토큰 2000개] → 극도로 과부하
GPU 3: [짧은 비디오 3개, 토큰 300개] → 매우 여유
Level 1: Coarse-grained Load Balance
단계별 과정
Sequence A: 100 토큰
Sequence B: 500 토큰
Sequence C: 200 토큰
Sequence D: 800 토큰
정렬 후: [A(100), C(200), B(500), D(800)]
GPU 0: A(100) + D(800) = 900 토큰
GPU 1: C(200) + B(500) = 700 토큰
총 토큰 수가 비슷해짐
Level 2: Fine-grained Dynamic Balanced Partitioning
Packed Sequence Parallelism (PSP)
기존 Sequence Parallelism은 모델 파라미터를 나누었지만, PSP는 sequence를 나눕니다.
원본 packed sequence: [토큰1, 토큰2, ..., 토큰100]
GPU 0이 받은 부분: [토큰1, 토큰2, ..., 토큰25]
GPU 1이 받은 부분: [토큰26, 토큰27, ..., 토큰50]
GPU 2가 받은 부분: [토큰51, 토큰52, ..., 토큰75]
GPU 3이 받은 부분: [토큰76, 토큰77, ..., 토큰100]
Attention 연산에서의 특별 처리
Attention은 전체 시퀀스를 봐야 하므로 특별한 처리가 필요
Attention 계산 전
All-to-all communication으로 시퀀스 길이와 attention head 차원 교환
GPU 0: [25 토큰, head 0] → [100 토큰, head 0의 1/4]
GPU 1: [25 토큰, head 1] → [100 토큰, head 1의 1/4]
GPU 2: [25 토큰, head 2] → [100 토큰, head 2의 1/4]
GPU 3: [25 토큰, head 3] → [100 토큰, head 3의 1/4]
Attention 계산 후
다시 all-to-all로 원래 분할 방식으로 복원
성능 향상 이 계층적 로드 밸런싱으로 32% 전체 성능 향상을 달성
기존 체크포인트의 문제
훈련 중단 → 체크포인트 저장 (몇 분 소요) → 훈련 재개
대규모 모델에서는 체크포인트 저장에 많은 시간이 걸려 훈련 효율성이 떨어집니다.
ZCC의 핵심 관찰
파라미터와 옵티마이저 상태는 옵티마이저가 실행되는 순간에만 바뀝니다.
훈련 스텝 구조
1. Forward pass (파라미터 변화 없음)
2. Backward pass (파라미터 변화 없음)
3. Communication (파라미터 변화 없음)
4. Optimizer step (파라미터 변화!)
ZCC 구현 전략
훈련 프레임워크 측면
충돌 연산과 비충돌 연산 분류
충돌 연산: 노드 간 통신 (Pipeline send/receive, ViT gather/scatter)
비충돌 연산: Attention, Dense FFN, 노드 내 통신
DtoH (Device to Host) 복사 최적화
충돌 연산 중: DtoH 복사 중단
비충돌 연산 중: DtoH 복사 수행 (PCIe 버스 공유 안 함)
세밀한 분해
큰 파라미터 텐서를 작은 청크로 나누어
비충돌 연산 시간에 맞춰 조금씩 복사
클러스터 측면
장애 노드 감지 시 즉시 대응
장애 감지 → 모든 건강한 NIC 활용 → 적응적 대역폭 최대화
→ 최신 메모리 체크포인트를 새 건강한 노드로 RDMA P2P 전송
복구 연산과 전송 오버랩
메모리 체크포인트 전송과 동시에
- 새 노드 환경 초기화
- 네트워크 설정
- 소프트웨어 로딩
모든 과정이 병렬로 진행됨
수학적 성능 모델
\[T_{\text{recovery}} = \max(T_{\text{transfer}}, T_{\text{initialization}})\]기존에는 두 시간이 순차적으로 더해졌지만, 이제는 더 긴 시간 하나만 소요됩니다.
실제 성능
Pre-trained Models 성과
ERNIE-4.5-300B-A47B-Base vs DeepSeek-V3-671B-A37B-Base
특별히 뛰어난 영역
ERNIE-4.5-21B-A3B-Base의 파라미터 효율성
ERNIE 4.5 (21B 총 파라미터) vs Qwen3 (30B 총 파라미터)
= 70% 크기로 동등하거나 더 나은 성능
특히 BBH(77.5% vs 72.7%)와 CMATH(93.7% vs 88.9%)에서 뛰어난 성능을 보였습니다.
Post-trained Models 성과
지시 따르기 능력
지식 정확성
핵심 발견: Unified Rewarding System의 정교한 설계가 지시 따르기와 지식 활용 능력을 크게 향상시켰습니다.
Non-Thinking Mode 우수성
시각적 인지 능력
문서/차트 이해
비디오 분석
기술적 혁신의 효과: 타임스탬프 렌더링과 적응형 해상도 처리가 비디오 이해 능력을 크게 향상시켰습니다.
Thinking Mode의 추론 능력
수학적 추론
복합 추론
상호 향상 효과 흥미롭게도, thinking과 non-thinking 모드의 공동 훈련이 두 모드 모두를 향상시켰는데, 이는 서로 다른 추론 스타일이 상호 보완적으로 작용함을 의미합니다.
훈련 효율성
추론 성능
배포 접근성
최대 모델 배포 옵션
- 8개 GPU (8-bit 파라미터)
- 4개 GPU (4-bit 파라미터)
- 1개 GPU (2-bit 파라미터, 141GB H20)
장애 허용성
Heterogeneous MoE의 패러다임 전환 기존의 “모든 모달리티를 똑같이 처리”하는 방식에서 “각 모달리티의 특성을 살리면서 협력”하는 방식으로의 전환입니다.
수학적 우아함 Router Orthogonalization Loss와 Token-Balanced Loss는 단순해 보이지만, 멀티모달 학습의 근본적 문제들을 해결하는 우아한 솔루션입니다.
실용적 영향 이론적 개선이 실제 성능 향상으로 직결되었습니다 (28개 벤치마크 중 22개에서 승리).
Zero Cost Checkpoint 단순한 아이디어이지만 대규모 훈련의 실용성을 근본적으로 바꾸었습니다. 98% 효과적 훈련 시간은 이전에는 불가능했던 수준입니다.
Hierarchical Load Balancing 멀티모달 훈련의 근본적 도전과제였던 가변 길이 처리를 체계적으로 해결했습니다.
FP8과 양자화 혁신 CCQ 2-bit 양자화는 이론적 우아함과 실용적 효과를 모두 달성한 사례입니다.
모달리티별 전문화 패러다임 ERNIE 4.5의 성공은 미래 멀티모달 모델이 모달리티별 전문화와 cross-modal 협력의 균형을 찾아야 함을 시사합니다.
Progressive Learning의 중요성 PRL의 성공은 복잡한 능력을 단계적으로 구축하는 것이 효과적임을 보여줍니다.
시스템과 알고리즘의 통합 설계 ERNIE 4.5는 알고리즘 혁신과 시스템 최적화가 통합적으로 설계될 때 시너지 효과가 극대화됨을 보여주는 사례입니다.
ERNIE 4.5는 Baidu에서 개발한 대규모 멀티모달 AI 모델 패밀리로, 텍스트, 이미지, 비디오를 통합적으로 처리할 수 있는 능력을 갖추고 있습니다. 이 모델 패밀리는 10개의 서로 다른 변형으로 구성되어 있으며, Mixture-of-Experts (MoE) 아키텍처를 기반으로 합니다.
모델 구성
현재 멀티모달 AI 모델 개발에서 직면하는 주요 도전과제는 다음과 같습니다:
핵심 인사이트: ERNIE 4.5는 기존의 단순한 모달리티 융합 방식과 달리, 각 모달리티에 특화된 전문가(expert)와 공유 전문가를 분리하여 모달리티 간 간섭을 최소화하면서도 상호 학습을 가능하게 만듦.
ERNIE 4.5의 가장 핵심적인 혁신은 Heterogeneous MoE 구조입니다. 기존의 MoE 모델들이 단일 모달리티에 최적화되어 있었다면, ERNIE 4.5는 멀티모달 환경에서의 MoE를 재설계했습니다.
구조적 특징
수식적 표현 \(\text{MoE Output} = \text{SharedExperts}(\text{AllTokens}) + \text{ModalityExperts}(\text{SpecificTokens})\)
다른 연구와의 차이점: 기존 연구들(Wang et al., Lin et al.)과 달리, ERNIE 4.5는 attention 레이어는 dense하게 유지하면서 FFN 레이어에서만 MoE 라우팅을 적용하여 cross-modal interaction을 보존합니다.
모달리티 분리 라우팅 전략 멀티모달 훈련에서 MoE 라우터는 데이터 분포의 급격한 변화로 인해 불안정해질 수 있습니다. ERNIE 4.5는 이를 해결하기 위해 modality-isolated routing을 제안합니다.
적응형 해상도 변환 기존의 ViT가 고정된 정사각형 입력을 요구했던 것과 달리, ERNIE 4.5는 이미지의 원본 종횡비를 최대한 보존합니다.
비디오 처리 비디오는 프레임 시퀀스로 처리되지만, 시퀀스 길이 제약과 시간적 커버리지 문제를 해결하기 위해 적응형 비디오 샘플링 전략을 사용합니다.
핵심 인사이트: 타임스탬프 렌더링은 position embedding이나 텍스트 토큰 기반 시간 인코딩과 달리, 추가 토큰 소비 없이 명시적인 시간적 단서를 제공합니다.
어댑터 설계 비전과 텍스트 표현을 통합 임베딩 공간으로 정렬하기 위한 모달리티 브리징 모듈입니다.
3D RoPE 텍스트, 이미지, 비디오의 통합 처리를 위한 3차원 위치 임베딩 체계
\[\text{3D RoPE}: \text{temporal, height, width 축에 대한 독립적 주파수 할당}\]ERNIE 4.5의 pre-training은 대규모 텍스트 및 멀티모달 데이터셋을 기반으로 하며, 포괄적인 데이터 품질 필터링 파이프라인을 구현합니다.
데이터 소스
품질 관리 프로세스
지식 기반 데이터 DIKW(Data-Information-Knowledge-Wisdom) 프레임워크에 영감을 받아 5개 지식 레벨로 분류하고, 고가치 데이터의 희소성을 해결하기 위해 key-point 기반 데이터 합성 방법을 적용합니다.
핵심 혁신: REEAO(Record Everything Everywhere All at Once)는 대규모 훈련에서 발생하는 데이터 중복이나 누락 문제를 해결하는 데이터 플로우 매니저입니다.
5가지 핵심 원칙
REEAO는 훈련 노드 수, 분산 전략, 글로벌 배치 크기, 컨텍스트 길이 변화에도 bitwise-deterministic 토큰 시퀀스를 보장합니다.
Stage I: Text-Only Training
Short-Context 단계
Long-Context 단계
Stage II: Vision-Only Training
Vision Encoder 단계
Vision Pre-Alignment 단계
Vision Integration 단계
Stage III: Joint Multimodal Training
Short-Context Multimodal
Long-Context Multimodal
Router Orthogonalization Loss MoE 모델의 전문가 동질화 문제를 해결하기 위해 라우터 가중치 간 직교성을 촉진합니다.
\[L_{orth} = \sum_{i=1}^{k} \sum_{j=1}^{k} \|\hat{w}_i^T \hat{w}_j - \delta_{ij}\|^2\]여기서 $\hat{w}i = \frac{w_i}{|w_i|_2}$이고, $\delta{ij}$는 크로네커 델타입니다.
기술적 세부사항: 이 손실은 Adam 옵티마이저의 그래디언트 추정을 방해하지 않도록 AdamW와 유사한 방식으로 라우터 가중치를 직접 업데이트합니다.
Token-Balanced Loss 멀티모달 훈련에서 텍스트 토큰만 손실에 기여하므로, 샘플 간 텍스트 토큰 비율 차이로 인한 그래디언트 분산을 줄입니다.
\[L_{balanced}^{(i)} = \frac{1}{|U_i| + |M_i|} \sum_{j \in U_i} \ell_j^{(i)}\]여기서 $U_i$는 마스크되지 않은 영역, $M_i$는 마스크된 영역입니다.
이론적 인사이트: EMA를 학습률 감소의 관점에서 분석하여, EMA가 파라미터 업데이트에 지수적 가중치를 적용하는 것을 보입니다.
EMA 파라미터는 다음과 같이 표현
\[\theta_{EMA}^n = \theta_0 + \sum_{i=0}^{n-1} \eta_i^{(\alpha)} \delta_i\]여기서 $\eta_i^{(\alpha)} = 1 - \alpha^{n-i}$는 효과적 학습률입니다.
Effective Decay Window 제어 원하는 decay window 크기 $\hat{W}$에 대해 적절한 EMA decay coefficient를 선택할 수 있습니다:
\[\hat{\alpha} = \exp\left(\frac{1}{\hat{W}} \log \epsilon\right)\]Supervised Fine-Tuning 2.3M 샘플로 구성된 데이터셋을 10개 도메인으로 체계적으로 분류합니다:
추론과 비추론 태스크로 분리하여, 추론 데이터에는 복잡한 사고 연쇄(CoT)가 필요한 태스크를, 비추론 데이터에는 정확성과 간결성이 중요한 태스크를 포함합니다.
Unified Rewarding System 추론과 비추론 태스크에 대해 서로 다른 리워드 조합을 사용합니다.
추론 태스크:
비추론 태스크:
Progressive Reinforcement Learning (PRL) 3단계 강화학습 알고리즘으로 구성됩니다:
Unified Preference Optimization (UPO) 기존 PPO의 단일 응답 최대화 방식과 달리, 쌍별 비교 신호를 통합합니다:
\[L_{UPO} = L_{PPO} + L_{DPO}\]다른 연구와의 차이점: UPO는 온라인/오프라인 버전으로 구분되며, 온라인 UPO는 각 RL 반복에서 rejection sampling으로 선호 쌍을 구성하고, 오프라인 UPO는 RL 훈련 전에 모든 선호 데이터를 미리 생성합니다.
Supervised Fine-tuning 프레임워크 이미지 이해와 추론 능력 강화를 위한 3단계 프로세스입니다.
데이터 구성 VLM이 기초적인 지각적 이해에서 어려움을 겪는다는 관찰에 기반하여, 고품질 지각 데이터를 합성합니다:
캡션을 제약 최적화 문제로 공식화하여, 텍스트 전용 추론 모델이 시각적 입력 없이도 관련 질문을 해결할 수 있는 이미지 설명을 생성합니다.
Thinking and Non-Thinking Joint Training
Step 1: Text-only Reasoning Cold Start
흥미로운 발견: 텍스트 데이터로만 훈련했음에도 불구하고, 모델이 “이미지를 다시 살펴보겠습니다”와 같은 멀티모달 추론 행동을 나타냅니다.
Step 2: Reject Sampling for Multimodal Enhancement
Step 3: Thinking and Non-Thinking Fusion 두 가지 접근법 사용
<think>\n\n</think>
추가Reinforcement Learning with Verifiable Rewards (RLVR)
Visual STEM: 정답이 있는 이미지 기반 질문으로 RLVR에 적합 Visual Puzzles: 패턴 인식과 그래프 추론이 포함된 10K 이상의 시각적 퍼즐 UI2Code: UI 디자인 이미지에서 HTML 코드 생성
평가 방법의 혁신: 기존의
\boxed{}
형식 매칭 대신, 두 개의 LLM을 사용하여 응답의 내부 일관성과 최종 답안의 정확성을 별도로 평가합니다.
Hybrid Reinforcement Learning RLVR과 RLHF를 통합한 통합 강화학습 프레임워크를 설계하여, 추론과 일반 능력 모두에서 우수한 성능을 달성합니다.
ERNIE 4.5의 멀티모달 특성과 대규모 MoE 아키텍처는 분산 훈련에서 상당한 시스템적 도전을 제시합니다.
핵심 도전과제
Heterogeneous Parallelism Architecture ViT 인코더는 모든 디바이스에 복제되고, MoE 백본의 하이브리드 병렬성 토폴로지 내에서 데이터 병렬성 차원이 중첩됩니다.
Forward Pass
각 디바이스의 ViT 인코더가 비전 특징을 독립적으로 계산
→ MoE 백본의 첫 번째 파이프라인 단계로 수집
→ 파이프라인 병렬성 단계를 통한 순방향 전파
Backward Pass
MoE 백본의 역방향 전파 완료
→ 비전 특징 그래디언트를 각 파이프라인 단계로 분산
→ ViT 인코더에서 표준 자동 미분 역방향 전파
→ 모든 디바이스에서 ViT 파라미터 그래디언트 all-reduce 동기화
Hierarchical Load Balance Strategy
Level 1: Coarse-grained Load Balance
Level 2: Fine-grained Dynamic Balanced Partitioning
성능 향상: 계층적 로드 밸런싱 전략으로 ERNIE-4.5-VL-424B-A47B-Base는 로드 밸런싱 없는 기준선 대비 최대 32% 종단간 멀티모달 훈련 성능 향상을 달성했습니다.
Intra-Node Expert Parallelism 비용이 많이 드는 노드 간 전문가 병렬성 통신을 피하기 위해 모델 아키텍처와 구성을 설계했습니다.
기존 MoE 구현과 달리, gate probability 곱셈 연산자를 전문가 계산 블록 내부로 재배치하여 두 번째 all-to-all 출력 텐서를 소비 후 즉시 해제할 수 있게 합니다.
Memory-Efficient Pipeline Scheduling 대규모 클러스터 훈련에서 고정된 글로벌 배치 크기를 유지하면서 그래디언트 축적 단계를 줄이면 파이프라인 버블 시간 비율이 증가합니다.
메모리 효율적 가상 파이프라인 스케줄링
ERNIE 4.5는 DeepSeek-V3와 유사한 양자화 전략을 MoE FFN 모듈에 적용하여, E4M3 FP8 수치 형식을 사용합니다.
Fine-Grained Memory Optimization
FP8 Quantization Operator Fusion
FP8 Communication Optimization
Operator-Level Recomputation 기존의 모듈 레벨 재계산과 달리, ERNIE 4.5는 연산자 레벨 재계산 전략을 채택하여 메모리와 계산 간의 더 세밀한 균형을 제공합니다.
# 기존 방식의 문제점
y1 = op1(x) # y1을 보존해야 함
y2 = op2(y1) # y1이 재계산될 예정인데도 보존
y3 = op3(y2)
# ERNIE 4.5의 해결책
y1 = op1(x)
y2 = OperatorLevelRecomputation()(op2, y1) # op2의 출력만 보존
y3 = op3(y2)
FlashMask for Flexible Attention ERNIE 4.5 멀티모달 pre-training에서 요구되는 다양한 attention mask를 수용하기 위해 FlashMask를 제안합니다. 메모리 복잡도를 $O(N^2)$에서 $O(N)$으로 감소시킵니다.
대규모 GPU 클러스터 사용으로 인한 높은 장애 중단율을 완화하기 위해 모델, 프레임워크, 하드웨어 전반에 걸친 프레임워크 네이티브 장애 허용 시스템을 제안합니다.
핵심 구성요소
TraceHang: 병렬성 정보와 통신 기록을 활용하여 명시적 장애 없는 hang의 원인을 자동 진단
Online SDC Scanner: 파이프라인 병렬성의 유휴 시간(버블 타임) 동안 고정 입력으로 계산 및 통신을 수행하여 Silent Data Corruption을 온라인으로 감지
Zero Cost Checkpoint (ZCC)
성능 지표: 장애 허용 프레임워크를 활용하면 10,000-GPU 클러스터에서도 98% 이상의 효과적 훈련 시간을 유지할 수 있으며, 종단간 자동 복구 시간을 8분 미만으로 단축했습니다.
ERNIE 4.5는 다양한 배포 시나리오와 하드웨어 플랫폼을 수용하기 위해 FP8, INT8, INT4, 2-bit weight-only quantization을 포함한 여러 양자화 방식을 제공합니다.
W4A8 Quantization ERNIE-4.5-300B-A47B 모델에서 전문가 가중치가 총 파라미터의 90% 이상을 차지하므로, 전문가 구성요소의 GEMM에 W4A8 양자화를 적용합니다.
주요 도전과제:
해결 방안
Multi-Expert Parallel Collaboration (MEPC)
Outlier Transfer Algorithm
Layer-Adaptive Permutation Rotation 각 레이어의 활성화에서 outlier 분포를 사전 분석하여 가중치 또는 활성화 중 어느 쪽에 outlier smoothing을 우선할지 결정합니다.
\[x_{quantized} = \text{float8\_e4m3}\left(\text{clip}\left(\frac{x_{bf16} \times \text{fp8\_max}}{\text{scale}}, -448.0, 448.0\right)\right)\]2-Bit Quantization ERNIE 4.5의 진입 장벽을 더욱 낮추기 위해 거의 무손실 2-bit 양자화 알고리즘을 구현하여 BF16 기준선 대비 모델 크기를 80% 감소시킵니다.
Convolutional Code Quantization (CCQ)를 제안하여 벡터 양자화의 고정밀도 데이터 양자화 능력과 스칼라 양자화의 낮은 계산 복잡도를 모두 보존합니다.
CCQ의 구성요소
W4A8 Kernel Acceleration 양자화 알고리즘과 하드웨어 아키텍처의 협업을 충분히 고려하여 효율적으로 최적화된 추론 커널을 개발했습니다.
최적화 기법
성능 결과:
Efficient Attention Kernel FP8와 INT8 계산에서 하드웨어 능력과 정확도의 균형을 맞추기 위해 Hopper 아키텍처 GPU에서는 FP8, Ampere 아키텍처 GPU에서는 INT8을 활용합니다.
INT8-Formatted Attention Schraudolph(1999)의 발견을 바탕으로 빠른 지수 계산을 구현합니다:
\[e^x \approx F_{float}\left(2^{23} \times \lfloor\text{scale} \times x + \text{bias}\rfloor\right)\]dequantization 단계와 지수 연산을 단일 FMA 명령으로 병합:
\[e^{x \times S_{qk}} \approx F_{float}\left(\lfloor 2^{23} \times \text{scale} \times S_{qk}\rfloor \times x + \lfloor 2^{23} \times \text{bias}\rfloor\right)\]FP8-Formatted Attention: C4(비대칭 채널별 4비트 KV 캐시 양자화) 사용하는 attention 모듈에서 두 GEMM 연산을 FP8E4M3 형식으로 양자화합니다.
Speculative Decoding ERNIE 4.5는 Multi-Token Prediction (MTP) 모듈을 탑재하여 추론 단계에서 speculative decoding을 사용합니다. 병렬 샘플링과 검증, 깊이 맞춤화된 attention 커널을 활용하여 MTP는 autoregressive decoding과 비교 가능한 TPOT(Time per output token)를 유지하면서 60% 출력 처리량 증가를 달성합니다.
PD Disaggregation with Expert Parallelism ERNIE-4.5-300B-A47B 모델에 대해 전문가 병렬성과 결합된 PD 분리 배포를 통해 시스템 처리량과 지연시간을 최적화합니다.
Multi-level Load Balancing
Data Parallelism 로드 밸런싱
Expert Parallelism 로드 밸런싱
PD Disaggregation 로드 밸런싱
성능 지표: 이러한 최적화 전략을 활용하여 ERNIE-4.5-300B-A47B는 입력 길이 2K, 출력 길이 400, 50ms TPOT 지연시간 제약 하에서 H800 노드당 56k 입력 TPS와 18k 출력 TPS의 추론 성능을 달성합니다.
PaddlePaddle 프레임워크 기반의 ERNIE 4.5용 산업급 개발 툴킷으로, 모델 훈련과 압축 기능을 제공합니다.
Industrial-Grade High-Performance Pre-Training:
Low-Bit Quantization-Aware Fine-tuning
Visual Training & Inference Interface
대규모 언어 모델과 비전 언어 모델을 위한 추론 및 배포 툴킷으로, vLLM 인터페이스와의 즉시 사용 가능한 호환성을 제공합니다.
핵심 기술 특징
PD Disaggregation with Multi-level Load Balancing
Comprehensive Low-Bit Quantized Inference Support
Multi-hardware Support
Pre-trained Language Models 결과
ERNIE-4.5-300B-A47B-Base는 28개 벤치마크 중 22개에서 DeepSeek-V3-671B-A37B-Base를 능가하며, 모든 주요 능력 카테고리에서 선도적 성능을 보입니다.
총 파라미터 크기가 21B인 ERNIE-4.5-21B-A3B-Base가 Qwen3-30B-A3B-Base(약 70% 크기)보다 BBH와 CMATH를 포함한 여러 수학 및 추론 벤치마크에서 우수한 성능을 보여 뛰어난 파라미터 효율성을 보입니다.
Post-trained Language Models 결과
ERNIE-4.5-300B-A47B는 지시 따르기와 지식 태스크에서 상당한 강점을 보이며, IFEval, Multi-IF, SimpleQA, ChineseSimpleQA에서 최첨단 점수를 달성합니다.
하이라이트
Non-Thinking Mode 성능 ERNIE-4.5-VL은 이미지 세부사항 인지와 관련 지식 회상에서 강력한 능력을 보입니다.
핵심
문화적 이해 우수성: CCBench에서 뛰어난 성능으로 중국 지식과 문화에 대한 포괄적 이해를 보여주며, 이는 고품질 중국 텍스트 및 시각 데이터의 통합과 멀티모달 공동 훈련을 통한 향상 덕분입니다.
Thinking Mode 성능 ERNIE-4.5-VL-424B-A47B는 다양한 멀티모달 평가 벤치마크에서 일관되게 강력한 결과를 제공합니다.
Thinking vs Non-Thinking 비교:
상호 향상 효과: 사고 모드가 멀티모달 추론 태스크에서 뚜렷한 장점을 제공할 뿐만 아니라, 비사고 모드도 두 모드의 공동 훈련을 통해 개선되어 두 시나리오 모두에서 견고한 수학적 문제 해결 능력과 유능한 멀티모달 이해를 보여줍니다.
Lightweight VLM 성능 ERNIE-4.5-28B-A3B는 상당히 적은 활성화 파라미터를 사용함에도 불구하고 대부분 벤치마크에서 Qwen2.5-VL-7B 및 Qwen2.5-VL-32B와 경쟁하거나 우수한 성능을 달성합니다.
아키텍처 혁신
훈련 최적화
시스템 최적화
배포 접근성
성능 벤치마크
산업계 기여: ERNIE 4.5는 단순히 성능 향상을 넘어서, 대규모 멀티모달 모델의 실용적 배포와 효율적 훈련을 위한 포괄적 솔루션을 제공합니다. 특히 개발 툴킷 ERNIEKit과 FastDeploy의 오픈소스화를 통해 연구 커뮤니티와 산업계 모두에 실질적 가치를 제공합니다.
ERNIE 4.5의 성공은 다음과 같은 방향으로 발전할 수 있는 기반을 마련