00:00:00

Tech Report | DeepSeek-V3 Technical Report

https://dsdanielpark.github.io https://github.com/dsdanielpark

Tech Report | DeepSeek-V3 Technical Report

MinWoo(Daniel) Park | Tech Blog

Created: 2025-01-30 02:00:04 +0000

Last modified: 2025-01-30 20:56:50 +0900

Tech Report | DeepSeek-V3 Technical Report

Related Project: Private
Category: Paper Review
Date: 2025-01-30

DeepSeek-V3 Technical Report

url: https://arxiv.org/abs/2412.19437
pdf: https://arxiv.org/pdf/2412.19437
html: https://arxiv.org/html/2412.19437v1
abstract: We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoroughly validated in DeepSeek-V2. Furthermore, DeepSeek-V3 pioneers an auxiliary-loss-free strategy for load balancing and sets a multi-token prediction training objective for stronger performance. We pre-train DeepSeek-V3 on 14.8 trillion diverse and high-quality tokens, followed by Supervised Fine-Tuning and Reinforcement Learning stages to fully harness its capabilities. Comprehensive evaluations reveal that DeepSeek-V3 outperforms other open-source models and achieves performance comparable to leading closed-source models. Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training. In addition, its training process is remarkably stable. Throughout the entire training process, we did not experience any irrecoverable loss spikes or perform any rollbacks. The model checkpoints are available at https://github.com/deepseek-ai/DeepSeek-V3.

DeepSeek-V3 Technical Report

개요

각 토큰에 대해 활성화된 37B개의 파라미터를 갖춘 강력한 Mixture-of-Experts(MoE): DeepSeek-V3 (671B) 공개

오픈 소스 모델로는 이례적으로 671B 모델을 공개했으며,DeepSeek-v3가 크게 주목받자 Qwen도 Qwen-2.5 모델을 빠르게 공개하였습니다.

기술적 핵심

DeepSeek-V3는 DeepSeek-V2에서
- 철저히 검증된 Multi-head Latent Attention(MLA)
- DeepSeekMoE 아키텍처를 채택하였고,
- 부하 분산을 위해 보조 loss 없는 전략으로 성능을 위해 다중 토큰 예측 학습 목표를 설정하였습니다.

학습 프로세스 (실험 및 다양한 요인을 제외하고 전체 학습에 2,788M H800 GPU 시간 사용, 핫 이슈)

14.8조 개의 다양하고 고품질 토큰에서 DeepSeek-V3를 사전 학습한 다음
Supervised Fine-Tuning
Reinforcement Learning
- 일반적으로 RL의 경우 초기화에 영향을 많이 받으며, 학습이 불안정한 것으로 알려져있는데 (손실 스파이크 혹은 이상한 곳으로의 웨이트 업데이트되어 못 쓰게 되는 등의 이슈) DeepSeek-v3는 안정적으로 학습할 수 있었다고 소개하고 있으며, 전체 훈련 과정에서 회복 불가능한 손실 스파이크를 경험하지 않았고 롤백도 수행하지 않았다고 소개
- 전체 체크포인트: https://github.com/deepseek-ai/DeepSeek-V3

[원문 상세 리뷰 준비 중]

DeepSeek-V3 기술적 핵심 톺아보기

아래 내용은 DeepSeek-V3에 사용된 주요 수식(특히 MLA(Multi-head Latent Attention), MoE(Mixture-of-Experts), Multi-Token Prediction(MTP), GRPO 등)에 대해 자세하게 설명합니다.

1. Multi-Head Latent Attention(MLA) 수식

1.1 개요

Transformer 구조에서 Attention 기법은 모델이 문맥 전반에 걸쳐 토큰 간 상호작용을 학습하는 핵심 메커니즘으로, 숫자 표현이나 리소스가 과다하게 사용되는 일부 단점이 있지만 (vanila attn의 한계) 여전히 대체 불가능할 정도의 퍼포먼스를 보여주고 있습니다. 따라서 대부분의 LLM, VLM 들은 대부분 비슷한 아키텍처를 공유하여 데이터의 퀄리티와 모델 웨이트 관리에 주력하여, 휴먼에게 더 유용한 모델을 만들기 위해 노력하고 있습니다. 현재 벤치마크는 이미 ‘22 말부터 큰 공신력을 잃었기 때문에 대략적인 참고 지표로만 해석하는 것이 좋다는 것이 중론입니다.

그러나 DeepSeek-V3는 표준 Multi-Head Attention(MHA) 대신 Multi-Head Latent Attention(MLA)를 채택하여 인퍼런스 시 메모리(특히 Key-Value 캐시) 사용량을 대폭 줄이면서 성능을 유지합니다.

일부 함수에서 CUDA function을 bypass해서 Nvidia’s assembly-like PTX programming 사용으로 효율적인 학습 파이프라인 사용 (Ops 개발진들과 협업) [기사]하여, OpenAI, Anthropic 뿐만아니라 중국이 H/W 최적화와 관련하여 NVIDIA CUDA의 기술적 해자도 해지할 수 있을 것이라는 조심스러운 의견들이 나오고 있는 상황입니다.

이때 다음과 같은 가정 혹은 기호를 사용합니다.

\(d\): 전체 임베딩 차원(e.g., 4096, 7168 등)
\(n_h\): 어텐션 헤드(head)의 개수(e.g., 8, 128 등)
\(d_h\): 각 헤드의 차원. 즉 \(d_h = d / n_h\)
\(\mathbf{h}_t \in \mathbb{R}^d\): \(t\)-번째 토큰의 Attention 입력 벡터
\(d_c\): Key, Value를 압축(compression)할 때 쓰는 차원 크기(\(d_c \ll d_h \times n_h\))

아래 제시된 식 \((1)\)~\((5)\)는 Key/Value 벡터를 로우 랭크(low-rank) 공간으로 변환하는 과정을 나타냅니다.

1.2 MLA 수식 해설

(1) Key/Value 공통 압축 벡터 \(\mathbf{c}_{t}^{K\,V}\)

\(\mathbf{c}_{t}^{K\,V} = W_{D}^{K\,V} \, \mathbf{h}_t\)

\(W_{D}^{K\,V} \in \mathbb{R}^{d_c \times d}\)는 다운프로젝션(down-projection) 행렬
\(\mathbf{c}_{t}^{K\,V}\in \mathbb{R}^{d_c}\)은 Key/Value에 공통으로 쓰는 잠재(latent) 압축 벡터

(2) Up-projection으로 Key 생성

\(\begin{aligned} [\mathbf{k}_{t,1}^C; \mathbf{k}_{t,2}^C; \dots; \mathbf{k}_{t,n_h}^C] &= \mathbf{k}_{t}^C = W_{U}^K \,\mathbf{c}_{t}^{K\,V}, \end{aligned}\)

\(W_{U}^K \in \mathbb{R}^{(d_h \times n_h) \times d_c}\)는 Key를 만들기 위한 업프로젝션(up-projection) 행렬
결과적으로 \(\mathbf{k}_{t}^C\)는 여러 헤드에 해당하는 (압축 형태의) Key들을 수직 방향으로 쌓은(concatenate) 형태

(3) RoPE가 적용된 추가 Key \(\mathbf{k}_t^R\)

\(\mathbf{k}_{t}^R = \mathrm{RoPE}\bigl(W_{K}^{R}\,\mathbf{h}_t\bigr)\)

\(W_{K}^R\in \mathbb{R}^{d_h^R \times d}\)는 Rotary Positional Embedding(RoPE) 를 적용하기 위한 별도 행렬
\(\mathbf{k}_{t}^R\)는 위치 정보를 반영해주는 임베딩

(4) 최종 Key \(\mathbf{k}_{t,i}\)

\(\mathbf{k}_{t,i} = \begin{bmatrix} \mathbf{k}_{t,i}^C \\ \mathbf{k}_{t}^R \end{bmatrix}\)

실제 Key는 압축된 Key(\(\mathbf{k}_{t,i}^C\))와 RoPE 키(\(\mathbf{k}_{t}^R\))를 결합하여 구성
이렇게 하면 인퍼런스 중에는 \(\mathbf{c}_{t}^{K\,V}\)와 \(\mathbf{k}_{t}^R\)만 캐싱해도 되므로 메모리를 크게 절약

(5) Value 생성

\([\mathbf{v}_{t,1}^C; \mathbf{v}_{t,2}^C; \dots; \mathbf{v}_{t,n_h}^C] = \mathbf{v}_{t}^C = W_{U}^V \,\mathbf{c}_{t}^{K\,V}\)

Key와 유사하게, Value도 다운프로젝션 \(\to\) 업프로젝션 과정을 거쳐 만들어짐
Value에는 RoPE가 별도로 적용되지 않음

예시

\(d = 4096\), \(n_h = 32\) → 각 헤드의 차원 \(d_h = 128\)

\(d_c = 512\)이라면, 원래 \(d_h \times n_h = 128 \times 32 = 4096\) 크기의 Key를 모두 저장하지 않고 512차원의 잠재 공간으로 압축하여,

인퍼런스 시 KV 캐시가 약 8배 절감 가능

1.3 Query 수식 (6)~(9)

쿼리(query) 또한 Key/Value와 유사한 방식을 취합니다. 다만 쿼리는 인퍼런스 시 매번 재계산하므로, 캐싱이 필요하지 않지만 훈련 시 메모리 절감을 위해 low-rank 압축을 적용합니다. (LoRA)

\(\mathbf{c}_t^Q = W_{D}^Q \,\mathbf{h}_t,\) \([\mathbf{q}_{t,1}^C; \dots; \mathbf{q}_{t,n_h}^C] = \mathbf{q}_t^C = W_{U}^Q\,\mathbf{c}_t^Q,\) \([\mathbf{q}_{t,1}^R; \dots; \mathbf{q}_{t,n_h}^R] = \mathbf{q}_t^R = \mathrm{RoPE}\bigl(W_Q^R\, \mathbf{c}_t^Q\bigr),\) \(\mathbf{q}_{t,i} = \begin{bmatrix} \mathbf{q}_{t,i}^C \\ \mathbf{q}_{t,i}^R \end{bmatrix}.\)

1.4 최종 Attention 출력 \(\mathbf{u}_t\)

\(\mathbf{o}_{t,i} = \sum_{j=1}^{t} \mathrm{Softmax}_j \Bigl(\frac{\mathbf{q}_{t,i}^\top\,\mathbf{k}_{j,i}}{d_h + d_h^R}\Bigr) \;\mathbf{v}_{j,i}^C,\) \(\mathbf{u}_t = W_O\,[\,\mathbf{o}_{t,1};\,\mathbf{o}_{t,2};\,\dots;\,\mathbf{o}_{t,n_h}\,].\)

\(\mathbf{v}_{j,i}^C\)는 “압축 Value” 파트
\(\mathrm{Softmax}_j(\cdot)\)는 해당 시점까지(1~\(t\))의 점수를 정규화
\(W_O \in \mathbb{R}^{d \times (d_h \times n_h)}\)는 최종 출력 프로젝션

핵심 내용 1) MLA는 Key·Value를 압축하고, RoPE 부분만 별도 결합함으로써 인퍼런스 시 캐시 크기가 대폭 줄어듦 2) Query도 마찬가지로 저차원 압축을 통해 훈련 시 메모리 절약을 달성

2. DeepSeekMoE 수식

2.1 기본 MoE 구조

MoE(Mixture of Experts)는 하나의 FFN(Feed-Forward Network)을 여러 개의 Expert로 분할하여, 각 토큰이 Top-K Expert만 선택해서 연산하게끔 하는 구조입니다. DeepSeek-V3는 아래 수식을 통해 MoE FFN의 출력을 정의합니다.

\[\mathbf{h}_t' = \mathbf{u}_t \;+\; \sum_{i=1}^{N_s} \mathrm{FFN}_i^{(s)}(\mathbf{u}_t) \;+\; \sum_{i=1}^{N_r} g_{i,t}\,\mathrm{FFN}_i^{(r)}(\mathbf{u}_t). \tag{12}\]

\(\mathbf{u}_t\)는 Attention 등을 통과한 뒤 MoE에 들어가기 전의 입력 벡터
\(N_s\): 공유(Shared) Expert 개수, \(N_r\): 라우팅(Routed) Expert 개수
\(\mathrm{FFN}_i^{(s)}\)는 \(i\)-번째 “공유” Expert, \(\mathrm{FFN}_i^{(r)}\)는 \(i\)-번째 “라우팅” Expert
\(g_{i,t}\)는 토큰 \(t\)가 Expert \(i\)를 어느 정도 가중치로 사용할지를 나타내는 게이팅(gating) 값

2.2 Gating 값 계산

1) 먼저 각 Expert별로 “점수”(\(s_{i,t}\))를 구함 → 상위 \(K_r\)개의 Expert 골라서 \(g_{i,t}'\) 설정
2) \(g_{i,t}\)는 softmax 식(합 1이 되도록)으로 정규화

\[g_{i,t} = \frac{g_{i,t}'}{\sum_{j=1}^{N_r} g_{j,t}'}, \quad g_{i,t}' = \begin{cases} s_{i,t}, & \text{ if } s_{i,t} \in \mathrm{TopK}\Bigl(\{s_{j,t}\}, K_r\Bigr), \\ 0, & \text{otherwise}. \end{cases} \tag{13,14}\]

\(K_r\): 토큰당 활성화시킬 라우팅 Expert의 개수(e.g., 8)
\(s_{i,t}\): 토큰 \(\mathbf{u}_t\)와 Expert \(i\) 간 유사도(affinity) 점수. DeepSeek-V3는 시그모이드 함수를 통해 계산.

\(s_{i,t} = \mathrm{Sigmoid}\bigl(\mathbf{u}_t^\top \mathbf{e}_i\bigr). \tag{15}\)

\(\mathbf{e}_i\)는 Expert \(i\)의 “centroid” 벡터(학습됨)

3. Auxiliary-Loss-Free Load Balancing 수식

3.1 Bias 갱신을 통한 Top-K 결정

MoE에서는 특정 Expert가 지나치게 많은 토큰을 받으면(로드 불균형) 병렬 효율이 떨어질 수 있습니다. 그러나 DeepSeek-V3는 auxiliary loss 없이도, bias를 동적으로 조정하여 Expert별 로드를 균등하게 맞춥니다.

\[g_{i,t}' = \begin{cases} s_{i,t}, & \text{if } s_{i,t}+b_i \in \mathrm{TopK}\Bigl(\{s_{j,t}+b_j\}, K_r\Bigr),\\ 0, & \text{otherwise}. \end{cases} \tag{16}\]

\(b_i\): Expert \(i\)의 bias 항
훈련 과정에서, 각 Expert가 과부하되면 \(b_i\)를 \(-\gamma\)만큼 감소, 과소부하면 \(+\gamma\)만큼 증가
이렇게 하면 토큰 라우팅 시 \(b_i\)가 반영되어 자동으로 Expert들의 로드를 평준화

3.2 보완용 시퀀스 단위 Loss

아주 극단적 편향을 방지하기 위해, 시퀀스 단위로도 균형을 유도하는 아주 작은 가중치의 Loss를 둡니다.

\(\mathcal{L}_{\mathrm{Bal}} = \alpha \sum_{i=1}^{N_r} f_i \, P_i, \tag{17}\) 여기에서
\(f_i = \frac{N_r}{K_r \cdot T}\sum_{t=1}^{T}\mathbf{1}\Bigl(s_{i,t}\in\mathrm{TopK}(\dots)\Bigr), \qquad P_i = \frac{1}{T}\sum_{t=1}^{T} s_{i,t}'.\)

\(\mathbf{1}(\cdot)\)은 인디케이터 함수
\(\alpha\)는 작은 값
이 항은 각 시퀀스 내에서 Expert가 균등하게 사용되도록 유도

4. Multi-Token Prediction(MTP) 수식

4.1 기본 개념

일반적으로 언어 모델은 “다음 단일 토큰”을 예측하도록 학습(CrossEntropy)하지만, DeepSeek-V3는 각 위치에서 추가 토큰까지 예측하는 MTP를 도입했습니다.

장점: 훈련 신호가 더 조밀(dense)해지고, 모델이 “몇 토큰 앞”까지 미리 표현을 생성해둘 수 있음.

4.2 MTP 모듈 구조

\(\mathbf{h}_{i,k}' = M_k\, \Bigl[\mathrm{RMSNorm}(\mathbf{h}_{i,k-1});\; \mathrm{RMSNorm}\bigl(\mathrm{Emb}(t_{i+k})\bigr)\Bigr], \tag{21}\) \(\mathbf{h}_{1{:}(T-k)}^k = \mathrm{TRM}_k\Bigl(\mathbf{h}_{1{:}(T-k)}^{\,\prime k}\Bigr), \tag{22}\) \(P_{i+k}^k = \mathrm{OutHead}\bigl(\mathbf{h}_{i}^k\bigr). \tag{23}\)

\(D\)개의 MTP 모듈이 순차적으로 쌓임(각 깊이에서 1개 추가 토큰 예측)
\(\mathbf{h}_{i,k-1}\): “주 모델(혹은 이전 depth)에서의 토큰 \(i\) 표현”
\(\mathrm{Emb}(t_{i+k})\): \(i+k\)-th 토큰의 임베딩
\(M_k\in \mathbb{R}^{d\times 2d}\): 결합 채널(concat된 두 벡터)을 다시 \(d\)-차원으로 투영
\(\mathrm{TRM}_k(\cdot)\): 해당 depth에 대한 Transformer 블록
\(\mathrm{OutHead}\): “출력 헤드”, logits를 구해서 softmax 확률 \(P\) 산출

4.3 MTP Loss

\(\mathcal{L}_{\mathrm{MTP}}^k = \mathrm{CrossEntropy}\Bigl(P_{2+k:(T+1)}^k,\; t_{2+k:(T+1)}\Bigr) = -\frac{1}{T}\sum_{i=2+k}^{T+1} \log P_i^k[t_i]. \tag{24}\)

k-th depth에서 예측해야 할 토큰 범위는 \(i= (2+k)\sim (T+1)\).
전체 MTP 손실은 \(\mathcal{L}_{\mathrm{MTP}} = \frac{\lambda}{D}\sum_{k=1}^{D}\mathcal{L}_{\mathrm{MTP}}^k. \tag{25}\)
\(\lambda\): MTP 손실 가중치(훈련 초반 크게, 후기 작게 등 동적으로 설정 가능)

MTP 인퍼런스 시

MTP 모듈은 버리는 방식으로도 인퍼런스 가능(기본 모델만 사용)
또는, speculative decoding용으로 추가 토큰까지 한 번에 생성해 빠른 디코딩을 할 수도 있음.

5. Group Relative Policy Optimization(GRPO) 수식 (강화학습)

DeepSeek-V3는 Post-Training 단계에서 RL(Reinforcement Learning)을 적용합니다. GRPO라 불리는 방식을 사용해, Critic 없이도 group-wise 상대 점수를 이용하여 업데이트를 진행합니다. \(\mathcal{J}{\mathrm{GRPO}}(\theta) = \mathbb{E}{q\sim P(Q), {o_i}\sim \pi_{\theta_{\mathrm{old}}}(O|q)} \Bigl[ \frac{1}{G}\sum_{i=1}^G \Bigl( \mathrm{min}\Bigl( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{\mathrm{old}}}(o_i|q)}A_i, ; \mathrm{clip}\Bigl(\dots\Bigr)A_i \Bigr) - \beta,\mathcal{D}{\mathrm{KL}}(\pi\theta |\pi_{\mathrm{ref}})\Bigr)\Bigr], \tag{26}\) \(\mathcal{D}{\mathrm{KL}}(\pi\theta|\pi_{\mathrm{ref}}) = \pi_{\mathrm{ref}}(o_i|q),\pi_\theta(o_i|q) - \log \frac{\pi_{\mathrm{ref}}(o_i|q)}{\pi_{\theta}(o_i|q)} -1, \tag{27}\) \(A_i = \frac{r_i - \mathrm{mean}({r_1,\dots,r_G})}{\mathrm{std}({r_1,\dots,r_G})}. \tag{28}\)

\(\theta\)는 RL 학습 중인 “policy” 모델 파라미터
\(\theta_{\mathrm{old}}\)는 이전 스냅샷(고정)의 정책
\(\{\mathbf{o}_i\}\)는 한 그룹(group)에 속한 여러 개의 샘플(답변)
\(r_i\): 각 샘플에 대해 Reward(rule-based나 model-based RM)
\(A_i\): 그룹 내에서 상대적 우위(advantage)를 계산
\(\beta\): \(\mathrm{KL}\) 페널티 가중치로, policy가 참조 모델(\(\pi_{\mathrm{ref}}\))과 너무 달라지지 않도록 제한

결과: Critic 모델(동일 크기의 신경망)을 따로 두지 않고, 그룹 내부에서 상대 비교를 통해 Policy를 업데이트할 수 있음.

6. 정리 및 예시 요약

아래 표는 주요 수식의 역할과 직관적인 예시를 간단히 재정리한 것입니다.

수식/식 번호	설명	예시
(1)~(5) (MLA Key/Value)	Key/Value 벡터를 저차원(\(d_c\))으로 압축→업프로젝션, RoPE 결합	\(\mathbf{c}_{t}^{K\,V}\) 차원을 512 정도로 설정해, 인퍼런스 시 KV캐시 8배 절감
(6)~(9) (MLA Query)	Query도 유사한 방식으로 압축 + RoPE 적용	Query는 캐시 필요X, 훈련 메모리 절약용
(10)~(11) (Attention Output)	Softmax로 Key와의 유사도를 구해 Value 합산 → 최종 어텐션 출력	\(\mathbf{o}_{t,i}\)를 여러 헤드 i에 대해 concat, 다시 \(W_O\)로 프로젝션
(12)~(15) (MoE FFN)	“공유 Expert + 라우팅 Expert” 구조, 각 Expert 가중치 \(g_{i,t}\)로 combine	한 토큰이 Expert 8개만 선택해서 FFN 수행, MLP 계산 효율 극대화
(16) (Aux-loss-free bias)	Expert별 bias \(\{b_i\}\)를 동적으로 조정해 토큰-Expert 라우팅을 결정	과부하 Expert의 \(b_i\)는 감소, 과소부하면 증가 → 로드 자동 균등화
(17)~(20) (Seq-wise balance loss)	시퀀스 단위 극단적 편향 방지용 소규모 loss	\(\alpha\) 작게 설정(0.0001)
(21)~(25) (Multi-Token Prediction)	각 위치에서 추가 토큰까지 예측(MTP), 더 많은 학습 신호 획득	예: D=1이면 “현재+1 토큰” 동시 예측, \(\lambda\)로 MTP 손실에 가중치 부여
(26)~(28) (GRPO)	Critic 없이, 그룹 내 샘플들의 상대점수(advantage)로 Policy 업데이트	샘플 G개 뽑아, reward 평균/표준편차로 정규화( A_i ), PPO 유사하게 \(\mathrm{clip}\) 활용

예시: MTP 예측 적용 모습

단일 토큰 예측이라면, 입력 [..., token_i, ...]에 대해 “다음 토큰 token_{i+1}” 하나만 맞추는 형태.
MTP(D=1)라면, [..., token_i, ...]에서 “token_{i+1} 뿐 아니라 token_{i+2}도 추가로 예측”
- 식 \((21)\)~\((25)\)에 따라, k=1 모듈이 token_{i+1}를 예측하고, 같은 모듈이 그 다음 토큰도 시퀀스 상태를 기반으로 연쇄적으로 인퍼런스.

이런 식으로 각 시점에서 더 많은 정답 신호를 얻게 되면, 모델이 학습 시 더 풍부한 피드백을 받아 수렴이 빨라지거나 성능이 향상될 수 있습니다.

7. 결론

DeepSeek-V3는 Transformer 기반 모델에서 MLA, MoE, MTP 등 다양한 수식과 기법을 통해 대규모 학습 효율·성능을 크게 끌어올렸습니다.

MLA 수식(\(1\)~\(11\)): Key/Value를 저차원으로 압축하고, RoPE를 분리하여 인퍼런스 시 메모리 사용량을 대폭 절감
MoE 수식(\(12\)~\(16\)): 여러 Expert를 둬서 병렬성을 극대화하되, bias 업데이트 등을 통해 Auxiliary Loss 없이도 로드 균형을 유지
MTP 수식(\(21\)~\(25\)): 훈련 시 “미래 여러 토큰”까지 예측 → 학습 신호 증가
GRPO 수식(\(26\)~\(28\)): Critic 없이 그룹 내부 상대 보상을 통해 정책 업데이트하는 RL 방법

각각의 수식은 구현 난이도와 하드웨어 요구사항이 있지만, 최종적으로 DeepSeek-V3가 코드, 수학, 멀티링구얼 등 다양한 벤치마크에서 최고 수준 성능을 보이는 핵심 토대를 제공합니다.

Tech Report | DeepSeek-V3 Technical Report

Tech Report | DeepSeek-V3 Technical Report

Tech Report | DeepSeek-V3 Technical Report

DeepSeek-V3 Technical Report

DeepSeek-V3 Technical Report

DeepSeek-V3 기술적 핵심 톺아보기

1. Multi-Head Latent Attention(MLA) 수식

1.1 개요

1.2 MLA 수식 해설

(1) Key/Value 공통 압축 벡터 \(\mathbf{c}_{t}^{K\,V}\)

(2) Up-projection으로 Key 생성

(3) RoPE가 적용된 추가 Key \(\mathbf{k}_t^R\)

(4) 최종 Key \(\mathbf{k}_{t,i}\)

(5) Value 생성

1.3 Query 수식 (6)~(9)

1.4 최종 Attention 출력 \(\mathbf{u}_t\)

2. DeepSeekMoE 수식

2.1 기본 MoE 구조

2.2 Gating 값 계산

3. Auxiliary-Loss-Free Load Balancing 수식

3.1 Bias 갱신을 통한 Top-K 결정

3.2 보완용 시퀀스 단위 Loss

4. Multi-Token Prediction(MTP) 수식

4.1 기본 개념

4.2 MTP 모듈 구조

4.3 MTP Loss

MTP 인퍼런스 시

5. Group Relative Policy Optimization(GRPO) 수식 (강화학습)

6. 정리 및 예시 요약

예시: MTP 예측 적용 모습

7. 결론

post contain ""

No matching posts found containing ""

Recent Posts

Most Likes

Most Views

Share Your Feedback 🏝️

Tech Report | DeepSeek-V3 Technical Report

Tech Report | DeepSeek-V3 Technical Report

DeepSeek-V3 Technical Report

DeepSeek-V3 Technical Report

DeepSeek-V3 기술적 핵심 톺아보기

1. Multi-Head Latent Attention(MLA) 수식

1.1 개요

1.2 MLA 수식 해설

(1) Key/Value 공통 압축 벡터 \(\mathbf{c}_{t}^{K\,V}\)

(2) Up-projection으로 Key 생성

(3) RoPE가 적용된 추가 Key \(\mathbf{k}_t^R\)

(4) 최종 Key \(\mathbf{k}_{t,i}\)

(5) Value 생성

1.3 Query 수식 (6)~(9)

1.4 최종 Attention 출력 \(\mathbf{u}_t\)

2. DeepSeekMoE 수식

2.1 기본 MoE 구조

2.2 Gating 값 계산

3. Auxiliary-Loss-Free Load Balancing 수식

3.1 Bias 갱신을 통한 Top-K 결정

3.2 보완용 시퀀스 단위 Loss

4. Multi-Token Prediction(MTP) 수식

4.1 기본 개념

4.2 MTP 모듈 구조

4.3 MTP Loss

MTP 인퍼런스 시

5. Group Relative Policy Optimization(GRPO) 수식 (강화학습)

6. 정리 및 예시 요약

예시: MTP 예측 적용 모습

7. 결론

post contain ""

No matching posts found containing ""

Recent Posts

Most Likes

Most Views