00:00:00

Share Your Feedback 🏝️

Post | DeepSeek

Post | DeepSeek

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Tech Report | DeepSeek-V3 Technical Report Next: Satori

Post | DeepSeek

  • Related Project: Private
  • Category: Paper Review
  • Date: 2025-01-31

DeepSeek LLM 관련 포스트

본 글에서는 DeepSeek LLM이 어떤 과정을 거쳐 빠른 시간 안에 고성능의 대규모 언어모델(LLM)을 개발해냈는지, 그리고 이를 통해 얻을 수 있는 시사점에 대해 최대한 자세히 살펴보겠습니다. 중간중간 다른 유명 LLM 예시(OpenAI의 GPT-4, Anthropic의 Claude, Meta의 Llama 2, 다양한 오픈소스 모델 등)와의 비교도 포함하였습니다. 해당 포스트는 DeepSeek의 과거와 현재에 대한 이야기를 담았으므로 최근 논란이 되고 있는 DeepSeek-v3에 대해서는 다음 포스트를 확인해주세요.

이 글에서는 DeepSeek이 발표한 여러 리포트(LLM 프리트레이닝 위주)를 기반으로, 개발 과정에서 어떤 아이디어와 실험이 있었는지 정리해보겠습니다. 또한 필요할 때마다 OpenAI, Anthropic, 그리고 Llama 등 다른 모델들과 비교해볼 예정입니다.


TL;DR

  • DeepSeek-R1은 로컬에서도 간단히 실행 가능할 정도로 가볍지만, 성능은 GPT 계열과 충분히 맞먹는 수준으로 주목받고 있습니다.
  • 공식 웹 또는 앱에서 사용할 수 있지만 보안 문제가 걱정된다면, 허깅페이스에서 바로 쓰거나 로컬 설치로 안전하게 테스트할 수 있습니다.
  • DeepSeek 시리즈는 빠르게 발전하고 있으며, 중국 LLM 시장의 주요 플레이어 중 하나로 자리 잡고 있습니다.

[개요]

  1. DeepSeek AI란?
    • 중국 헤지펀드 High-Flyer 산하 AI 기업이 개발한 LLM(대규모 언어모델) 프로젝트
    • 중국에서는 Alibaba(Qwen)와 DeepSeek AI(DeepSeek) 두 업체가 LLM 시장을 선도하고 있음
  2. DeepSeek 모델 종류
    • DeepSeek-R1-Zero: Base Model(DeepSeek-V3)를 RL로 학습하여 0-shot(Zero-shot) 문항에 대한 답변을 강화한 텍스트 모델
      • 성능이 상당히 높아, 오픈AI의 GPT 모델과 충분히 경쟁할 만한 수준으로 평가됨
    • DeepSeek-V3: 베이스 모델 기반으로 Instruction Tuning을 거친 텍스트 모델
    • DeepSeek-VL2: 이미지 + 텍스트 멀티모달 모델
  3. 오픈소스 & 타 기업 동향
    • 오픈소스 진영: 메타 Llama 이후, 최대 671B(억 단위 파라미터) 같은 대규모 모델들이 부분적으로 공개
    • OpenAI, Anthropic: 여러 모델을 섞는 MoE(Mixture of Experts) 방식을 사용, 수 백조 이상일 것으로 추정

[DeepSeek AI 사용 방법]

  1. 공식 웹/앱에서 사용 (보안 이슈 O)
    • 웹 버전: 현재 사용자가 몰려 가입 제한. 일반적인 ID/PW 대신 별도 계정 발급 방식 사용
    • 앱(모바일/데스크톱) 제공: 계정 생성 후 이용 가능
    • 보안 이슈: 데이터가 중국으로 전송될 가능성 있음 → 테스트 용도로 추천
  2. 허깅페이스(Hugging Face) 통해 사용 (보안 이슈 X)
  3. 로컬(Local) 환경에서 사용 (보안 이슈 X)
    • ollama (Docker 유사 LLM 서빙 백엔드) 이용
      • ollama 다운로드 후 설치
      • CLI에서 ollama run deepseek-r1:1.5b (약 1.5B 파라미터 모델)
      • GPU 리소스가 충분하다면 더 큰 모델도 가능 (3B 정도가 일반적 한계)
    • chatboxai (데스크톱 프런트엔드) 연동
      • ollama serve 명령어로 백엔드 실행
      • chatboxai에서 Ollama API 연결 → 원하는 DeepSeek 모델 선택
    • 그 밖에 Colab, transformers, Hugging Face 라이브러리 등으로도 인퍼런스 가능
    • LM Studio 같은 툴 사용 시, 백엔드 구축 없이도 빠르게 실행 가능 (약 495MB 필요)

[관련 자료/추가 활용]

[재미로 보는 업계 한줄평]

  • DeepSeek: 중국의 지원 하에 빠른 성장. R1은 GPT 시리즈에 비견될 정도로 강력
  • 메타(Meta): 연구 책임자인 얀 르쿤(Yann LeCun)이 안전성(Safety)에 우선순위, 공개에 신중한 편
  • OpenAI: 투자자 및 세일즈에 집중, 다양한 데이터를 대규모로 투입
  • Anthropic: 메타와 유사하게 안전성을 중요시, 분석적이고 체계적인 성장
  • Alibaba(Qwen): 테크 플랫폼 확장을 목표, 꽤 많은 리소스를 투자
  • Mistral AI: 소수 인력으로 훌륭한 결과를 내왔으나 리소스 제한으로 최근 주춤
  • DeepSeek: Mistral AI와 비슷한 포지션이었으나, 전폭적 투자로 빠른 발전

“결국 아키텍처보다는 얼마나 풍부한 전문 데이터로 모델을 학습하느냐가 최종 성능에 큰 영향을 미친다.”


[본문]

DeepSeek LLM 관련 포스트

1. DeepSeek LLM이란?

DeepSeek은 중국의 헤지펀드 High-Flyer 산하에 있는 AI 기업에서 개발한 LLM 계열 모델로 중국은 Alibaba(Qwen), DeepSeekAI(DeepSeek)가 LLM 시장을 주도하고 있습니다.

  • 회사 소개
    • Qwen(알리바바), ERNIE(바이두)처럼 대중적인 이름은 아니지만, A100을 최소 1만 대 이상 보유하고 있다고 알려져 있습니다. 또한 H800 GPU도 상당히 많이 보유한 것으로 추정됩니다.
    • 2023~2024년 무렵부터 본격적으로 개발된 것으로 보이며, 불과 몇 달 만에 최고 수준 LLM을 만들어냈다고 평가됩니다.

      최근 증시에 타격을 받은 경쟁사들은 적은 금액으로 학습했다는 DeepSeek의 주장에 대해 실제로는 그보다는 더 많은 금액이 들었을 것이라는 반대 의견을 내기도 했습니다.

  • 주요 특징
    • “성능 대비 저렴한 비용”: 1M(백만) 토큰당 입력은 약 $0.14, 출력은 약 $0.28 정도로 알려져 있는데, 이는 중국 내에서 LLM API 시장의 가격 경쟁을 촉발시켰습니다.
    • 코드 모델: 코드 관련 벤치마크(e.g., BigCode Bench)에서 최상위권을 차지하며, 다른 코딩 특화 모델과 어깨를 나란히 합니다.
    • 빠른 개발 속도 및 투명성: 비교적 상세한 테크니컬 리포트들을 계속해서 공개하고 있어, 어떻게 LLM을 학습하고 개선해나가는지의 과정을 어느 정도 추적할 수 있습니다.
    • 일부 function에서 CUDA를 대체하는 Nvidia’s assembly-like PTX를 사용하여 개발 프로세스 개선하여, OpenAI, Anthropic 뿐만아니라 NVIDIA도 긴장하고 있는 상황입니다.
    • 중국이 H/W 최적화와 관련하여 CUDA의 기술적 해자도 해지할 수 있을 것이라는 조심스러운 의견들이 나오고 있는 상황! (관련 기사: DeepSeek’s AI breakthrough bypasses industry-standard CUDA for some functions, uses Nvidia’s assembly-like PTX programming instead)

2. DeepSeek vs. 다른 LLM들과의 비교

2.1 가격(토큰 비용) 비교

LLM 서비스의 가격은 모델 유형과 처리 토큰 수에 따라 천차만별입니다. 아래 표는 (2025년 기준) 여러 모델들의 대략적인 비용(1M 토큰 처리 시, 프롬프트+응답 합산 가정)을 비교한 것입니다. 실제로는 시간과 적용되는 할인이 달라질 수 있으니, 참고용으로 봐주시면 좋겠습니다.

모델 1M 토큰 처리비용(입력+출력 합산, USD) 비고
DeepSeek LLM 약 $0.42 (입력 $0.14 + 출력 $0.28) 중국 내 가격 경쟁 촉발, 저렴함이 장점
OpenAI GPT-4 약 $90 (프롬프트 $30 + 출력 $60) 향상된 성능, 고비용
OpenAI GPT-3.5 약 $3.50 (프롬프트 $1.50 + 출력 $2.00) 비용 대비 높은 성능, 범용 모델
Anthropic Claude 약 $7~$15 사이 (조건에 따라 다름) 긴 context length, 고성능 채팅 모델
Meta Llama 2 API(상업용) 공개 API 비용이 모델에 따라 상이 오픈소스 버전 자체는 무료 다운로드 가능
기타 오픈소스 (e.g., Falcon, MPT 등) 직접 호스팅 시 GPU 비용만 부담 호스팅 비용/운영 난이도는 별도 고려
  • DeepSeek이 제공하는 가격은 특히 중국 시장을 겨냥해 공격적인 수준이라는 평가를 받습니다.
  • OpenAI의 GPT-4는 성능이 우수하지만, 상대적으로 높은 비용이 문제가 되기도 합니다.
  • Anthropic Claude는 context length가 길어서 장점이 있으나, 토큰 비용 역시 GPT-3.5 대비는 높은 편입니다.
  • 오픈소스 모델은 직접 배포/호스팅하는 경우가 많아, API 비용 자체는 들지 않지만 인프라(서버, GPU) 비용이 만만치 않습니다.

또한, 현재 한국어에 대한 충분한 학습이 거쳐지지 않아서 한국어에 대한 성능은 OpenAI와 Anthropic이 더 높은 편이고, Anthropic은 SKT가 투자하여 SKT Tech Summit 2023에서 Anthropic 개발총책임자가 키노드 발표를 한 것과 디시인사이드의 일부 저퀄리티 데이터가 학습된 것으로 보아 어느정도 한국어에 대한 충분한 학습을 거쳤을 것이라고 보고 있습니다.

2.2 모델 성능 및 특징 비교

성능은 특정 벤치마크(e.g., MMLU, Big-Bench, 수학 문제, 코딩 문제 등)에 따라 다르게 나타나므로, 단순화해서 주요 특징을 비교해보겠습니다.

모델 파라미터 규모 주 사용 데이터 장점 단점
DeepSeek(7B/67B/등등) 7B ~ 수백 B(MoE) Common Crawl+중국어+코드+수학 - 학습 효율↑
- 저렴한 API 비용
- 코드 분야 우수
- 세계적 브랜드 인지도 낮음
- 영어 이외 환경에서 주목받음
OpenAI GPT-4 비공개(수천억 이상 추정) 고품질 텍스트 전반 - 종합적 최고 수준 성능
- 광범위한 지식 커버
- 비용이 높음
- 모델 구조/세부 사항 비공개
Anthropic Claude 비공개(수천억 추정) 폭넓은 웹 텍스트 - 대화형 모델의 안정성
- 긴 컨텍스트 제공
- 아직 영어권 중심
- 비용이 GPT-3.5보다 비쌈
Meta Llama 2 7B/13B/70B Common Crawl 위주, Books 등 - 오픈소스(가중치 공개)
- 연구/개발 자유도↑
- API 사용 시 비용 구간이 여러가지
- 상업적 용도 시 제한 조건 존재
Falcon, MPT, 등 오픈소스 7B~70B 웹/코드 혼합 - 오픈소스 자유도↑
- 특정 작업 특화 가능
- 기반 모델 성능 편차 큼
- 직접 배포 시 비용/기술 부담

3. DeepSeek LLM 7B/67B 모델 개요

DeepSeek이 초기에 공개한 모델은 7B와 67B 파라미터 규모로, 학습 토큰은 2조(2T) 토큰입니다.

  • 성능적으로는 Meta의 Llama 2(7B/70B)와 유사한 수준을 보여주며,
  • 특히 수학과 코딩 분야에서 강점이 뚜렷하다고 합니다.

3.1 주목할 만한 이유

  1. 압도적 자원 투입: 갑자기 등장한 회사임에도 A100, H800 GPU를 대량 확보하여 빠른 속도로 모델 개발
  2. 테크니컬 리포트 공개: 연구 개발 과정을 적극적으로 공유해, LLM 개발 노하우를 엿볼 수 있음.
  3. 데이터·아키텍처 최적화: Global Deduplication부터 시작해서 Scaling Law, MoE 구조 등 다양한 최신 기법을 실험적으로 검증

4. 데이터 처리 방식의 특징: Global Deduplication

DeepSeek은 Common Crawl 등을 활용해 대규모 웹 텍스트를 모았는데, 글로벌 디덕 중복 제거(Global Deduplication) 방식을 채택했습니다.

“Common Crawl은 시계열적으로 여러 덤프가 쌓여 있으며, 이를 각각 중복 제거하는 대신 모든 덤프를 통합해 중복을 한 번에 제거하면 훨씬 더 많은 중복을 제거할 수 있다” – DeepSeek 리포트 요약

하지만 글로벌 디덕이 항상 최적이라고 보기는 어렵다는 반론도 있습니다.

4.1 글로벌 디덕의 장단점

  • 장점
    • 중복 문서를 공격적으로 제거하여 실제 ‘새로운’ 텍스트가 차지하는 비율 상승
    • 학습 효율 개선 (똑같은 텍스트를 여러 번 학습하지 않아 Overfitting 가능성 감소)
  • 단점
    • 유용한 정보도 함께 제거될 수 있음 (시간차에 따른 문서 업데이트, 품질 변화 등)
    • Dedup 강도가 세지면 결국 사용할 수 있는 데이터의 양이 급격히 줄어듦
    • 실제로 일부 연구(e.g., FineWeb, https://arxiv.org/abs/2407.06380)에서 너무 강한 Dedup은 고품질 텍스트까지 날려버릴 수 있어 오히려 성능 하락을 일으킬 가능성을 지적

그러나 현재 많은 오픈소스들이 학습하고 있는 데이터를 모두 수집하여 정성적으로 분석하였을 때, 상당히 부족한 답변들과 저퀄리티 데이터들이 많았으므로 이 부분을 디덕하고, 중국의 저렴한 인건비 및 개발 인력을 투입하여 충분히 정제하였다면 이 정도의 성능을 값싸게 학습시켰을 가능성이 높다고 생각합니다.

4.2 다른 연구 사례

  • OpenAI나 Anthropic 또한 Common Crawl을 활용하지만, 모든 덤프를 통합하는 방식보다는 정교한 품질 필터링과 함께 적절한 Dedup을 결합하는 편이 많습니다.
  • Meta의 Llama 2에서도 Dedup은 적용했으나, 덜 공격적인 방식으로 알려져 있습니다.

5. Instruction 데이터의 프리트레이닝 활용

DeepSeek 리포트에 따르면 일부 중국계 LLM에서 자주 하는 방식인, “Instruction 데이터(e.g., QA, 채팅 스타일 응답 등)를 프리트레이닝 단계에서 함께 섞어주는 전략”에 대해 언급이 있습니다.

  • 벤치마크 점수 상승: Multiple Choice QA나 특정 포맷의 벤치마크에 익숙해지면서, 표면적 점수가 올라가는 효과가 존재.
  • 실제 능력 향상은 제한적: Instruction 데이터를 많이 섞지 않는 이상, 근본적인 모델 학습 능력이 크게 발전하지는 않는다고 봤습니다.

이 부분은 OpenAI도 GPT-3.5 시절에 유사하게, Instruction 튜닝(InstructGPT)을 통해 성능을 높였지만, 근본적으로 대규모 프리트레이닝 데이터가 더 중요하다고 강조해 왔던 흐름과 일맥상통합니다.


6. 학습 전략: Multi Step 스케줄러

학습률(Learning Rate) 스케줄링으로 ImageNet 시절부터 사용되던 Multi Step 방식(“Infinite 스케줄러”)을 사용했다는 점이 특징입니다.

  1. Cosine 스케줄과 비교했을 때
    • 최종 성능은 거의 비슷
    • Continual Pretraining 시나리오에서 유리 (중간 체크포인트를 이어서 학습하기 쉬움)
  2. OpenAI, Anthropic 등은 주로 Cosine 혹은 Linear Decay를 사용하지만, 사내 파이프라인에 따라 다릅니다.
  3. DeepSeek은 “중간 모델을 여러 번 불러서 추가 데이터로 학습하는 시도를 많이 하기 때문에, Multi Step이 편리하다”고 언급합니다.

7. Scaling Law 적용

이 부분은 상당히 테크니컬하면서도 LLM 개발에서 중요한 주제입니다.

  • Kaplan Scaling Law vs. Chinchilla Scaling Law
    • Kaplan(2020)은 모델 파라미터 \(N\)과 데이터 토큰 수 \(D\)에 대해 학습 FLOPS를 \(C = 6ND\)로 단순화.
    • Chinchilla(2022)는 모델 임베딩 파라미터 처리를 어떻게 보정하느냐에 따라 최적 점이 달라진다고 주장.
  • DeepSeek은 “모델 파라미터 수(\(N\)) 대신 토큰당 FLOPS(\(M\))”를 고려하는 방식을 제안.
    • 이는 모델 구조상 임베딩이 차지하는 비율이 커질수록 단순 6ND로는 정확한 추정이 어렵기 때문.

결론적으로, 데이터 품질에 따라 “모델 크기를 키우느냐 vs. 데이터 양을 늘리느냐”가 달라진다는 사실을 DeepSeek 실험 결과에서도 확인했다고 합니다.

  • 고품질 데이터일수록 모델 크기를 키우는 쪽이 유리
  • 저품질 데이터일수록 데이터 양을 늘리는 쪽이 낫다

이는 Anthropic에서도 유사하게 강조했으며, OpenAI 또한 “우선 높은 품질의 데이터를 확보하되, 데이터가 풍부해지면 모델 크기를 키워야 한다”고 밝혀왔습니다.


8. DeepSeekMoE: Mixture of Experts 모델

DeepSeek은 MoE(Mixture of Experts) 구조를 추가적으로 시도했습니다.

  • 일반적인 Dense 모델 대비 파라미터를 늘리는 대신, 인퍼런스 시에는 일부 Expert만 활용해 효율성을 높이는 기법입니다.
  • DeepSeekMoE에서는 기존 Dense FFN을 Expert로 쓰지 않고, 더 작은 Expert 여러 개를 두되, Top 6을 선택(게이트)하는 방식을 채택했습니다. 추가로 모든 토큰이 공유하는 Expert 2개가 상시 사용되도록 설계했다고 합니다.
  • 이로 인해 토큰 밸런스 문제(일부 Expert만 과부하)는 그룹 레벨 토큰 밸런스 Loss로 완화했습니다.

“모든 토큰에 대해 공통된 지식은 ‘공유 Expert’에, 특화된 지식은 다른 Expert에 분산시키는 아이디어.” – DeepSeekMoE 소개

비슷한 아이디어는 알리바바의 Qwen이나 Google 계열 연구에서도 발견됩니다.

  • MoE는 고성능을 낼 수 있지만, 학습 난이도가 상대적으로 높고, 통신 비용도 증가할 수 있다는 단점이 있습니다.
  • DeepSeek에서는 이 부분을 인프라 차원에서 상당 부분 해결했다고 언급합니다.

9. DeepSeek-Coder: 코드 특화 모델

코드 벤치마크에서 상위권을 차지한 DeepSeek-Coder 시리즈는 GitHub 데이터와 여러 언어(87개 이상)를 학습하는 것이 특징입니다.

9.1 Dependency Parsing 활용

  • 코드 파일 간 의존 관계를 파악해서, 의존하는 파일이 뒤에 오도록 재배치한 뒤 순차적으로 학습.
  • 이렇게 하면, 각 코드가 어떤 모듈을 임포트/참조하는지 명확해져, 맥락이 풍부해집니다.
  • 이미 InternLM2, CodeGemma 등에서도 유사한 접근을 하고 있으며, 사실상 코드 데이터 전처리의 표준으로 자리잡아가고 있습니다.

9.2 대표적인 효과

  • Github 레포 단위로 학습되기에, 실제 레포 구조를 이해한 코드를 생성해낼 가능성이 높아짐.
  • 예를 들어, “A.py가 B.py를 참조할 때, B.py의 내용이 먼저 등장하므로 학습 시 B.py 정보를 잘 인코딩하게 됨.”

10. DeepSeekMath: 수학 특화 모델

DeepSeekMath는 수학 문제에 특화된 모델로, 실제 수학 올림피아드 대회(Kaggle AI Mathematical Olympiad Prize)에서도 상위 팀들이 많이 사용했다고 알려져 있습니다.

10.1 대규모 수학 데이터셋 구축

  • OpenWebMath(약 13.6B 토큰)라는 공개된 수학 데이터로부터, 유사 문서를 Common Crawl에서 대규모로 추가 발굴.
  • 이렇게 얻은 “수학 관련 도메인”을 찾고, 그 도메인에서 링크하는 자료들을 계속 추적, 최종 120B 토큰 이상의 수학 데이터셋 확보.
  • 보통 Common Crawl을 이미 학습에 사용하더라도, 수학에 특화된 문서를 재발굴하고 포맷을 개선하는 과정이 중요하다는 시사점을 줍니다.

이는 OpenAI의 GPT-4도 수학 문제 해결 능력이 상당히 뛰어나다고 알려져 있지만, 내부적으로 실제 수학 데이터가 대거 포함된 것으로 추정됩니다. DeepSeekMath는 이를 좀 더 공개적으로 보여준 사례라 할 수 있습니다.


11. DeepSeek-VL: Vision Language 모델

이미지+텍스트 멀티모달 학습을 진행한 모델로, 특별한 점 중 하나는 Anna’s Archive에서 확보한 1M 규모의 E-Book 데이터를 사용했다는 것입니다.

  • E-Book 데이터: Book3 등이 200k 규모로 25B 토큰 정도라면, 1M 규모의 E-Book은 약 100B 토큰 수준으로 추정
  • 이 E-Book 데이터를 Vision Language 학습용으로 썼지만, 사실 LLM 학습에도 충분히 사용할 수 있습니다.

InternLM2, Yi-34B 같은 모델들도 100B 이상의 책 데이터를 포함해 학습하는 추세여서, 책 데이터가 여전히 중요한 자원임이 부각되고 있습니다.


12. DeepSeek-V2: MoE 기반의 차세대 모델

DeepSeek은 최신 버전인 DeepSeek-V2에서 21B Activated, 236B 파라미터(실질적으로는 MoE 포함)로 8.1T 토큰을 학습했습니다. 사실상 Llama 3 70B에 근접하거나 오히려 더 큰 Capacity를 갖출 수 있다고 합니다.

12.1 데이터

  • 총 8.1조(Trillion) 토큰으로 대폭 증가
  • 영어/중국어 비중이 각각 44%/56% 정도로 추정(중국어 토큰이 12% 더 많다는 언급이 있음)
  • 이전에 과도하게 삭제되었다고 여겨지는 데이터를 복구했다고 하는데, 이는 Dedup이나 필터링 기준을 완화했거나 새롭게 조정했을 가능성이 큽니다.

12.2 모델 아키텍처

  • DeepSeekMoE 구조를 유지하면서, Attention 계산을 Multi-head Latent Attention으로 교체
  • Latent Projection을 통해 차원을 축소해 KV 캐시 메모리를 줄이는 방식
    • 일반 GQA/MQA와는 다른 접근
    • 예: 8-헤드 Attention 대신 Latent 차원을 저장해 메모리 효율을 높임.
  • Position Embedding은 별도의 헤드로 분리해야 하는 등 구현 난이도가 있지만, 인퍼런스 시 메모리 사용량이 줄어들어 대규모 서비스에 유리

12.3 인프라 및 학습 효율

  • HAI-LLM 프레임워크(Megatron 기반)에 Zero-Bubble Pipeline Parallelism(https://arxiv.org/abs/2401.10241) 기법을 도입
  • DeepSeek 67B는 1T 토큰 학습에 301k GPU 시간이 걸렸다면, DeepSeek-V2는 173k GPU 시간으로 동등 혹은 그 이상의 Capacity를 달성
  • 이는 MoE 모델이 잘 설계되면 Dense 모델 대비 연산 효율을 크게 높일 수 있다는 점을 재확인합니다.

13. DeepSeek-Coder-V2

코드 특화 모델 역시 V2로 업그레이드되었습니다.

  • DeepSeek-V2(4.2T 학습)에서 추가로 6T를 더 학습한 결과물
  • 이번에는 Cosine 스케줄을 사용했는데, “추가 학습 계획이 미리 없었으나 나중에 결정되어, Multi Step이 아니라 Cosine 스케줄로 진행한 것 같다”고 전해집니다.

13.1 대규모 데이터

  • 총 821B 코드 데이터 + 185B 코드 관련 텍스트 = 약 1000B(1조 토큰)에 달하는 코드 관련 텍스트
  • 이는 StarCoder 2(약 900B)와 비슷하거나 더 많은 수준으로, 사실상 업계 최상위권 규모

13.2 Common Crawl에서의 코드 발굴

  • DeepSeekMath와 비슷하게, Common Crawl 내 코드 스니펫, GitHub 링크 등을 재귀적으로 추적해 약 70B 토큰 확보
  • GitHub에서도 94B 토큰을 추가 확보
  • 수학 데이터도 221B로 늘었는데, 코드와 수학의 융합 학습으로 알고리즘 문제 해결 능력을 높이려는 목적도 있어 보입니다.

14. 총평과 시사점

DeepSeek의 여러 버전 모델을 요약해보면, 대규모 LLM이 성공하기 위해 필요한 고전적 레시피를 충실히 따라가면서, 자체적인 MoE 구조 최적화, 데이터 발굴 기법 개선, 효율적 인프라 활용 등을 동시에 수행했음을 알 수 있습니다.

  1. 데이터 전처리
    • Dedup이나 필터링 기준을 신중히 설계해야 하며, 데이터를 무조건 많이 제거하는 것이 능사가 아님.
    • Common Crawl 내에서도 고가치 데이터를 발견해내는 과정이 중요(수학, 코드 등)
  2. Scaling Law 적용
    • 단순히 “모델 크기가 크면 다 좋다”가 아니라, 데이터 품질/양과 균형이 맞아야 함.
    • 합리적인 하이퍼파라미터(배치 크기, LR 등) 설정이 중요
  3. MoE와 모델 구조 개선
    • MoE는 인퍼런스·학습 난이도가 있지만, 잘 설계하면 Dense 대비 높은 효율을 낼 수 있음.
    • Latent Attention, Zero-Bubble Pipeline 등 인프라 최적화 연구가 필수적
  4. 분야 특화 모델의 위력
    • 코드(DeepSeek-Coder), 수학(DeepSeekMath) 등 전문 분야를 위해 대규모 데이터를 추출·재가공하는 것이 벨류가 큼.
    • 이는 OpenAI, Anthropic, 그리고 다양한 오픈소스 모델들도 점점 더 추진 중인 방향 (e.g., Code Llama, StarCoder 등)
  5. 가격 경쟁력
    • DeepSeek은 “고성능 모델을 낮은 비용으로 API 제공”이라는 점에서 눈길을 끔.
    • 향후 중국 시장뿐 아니라 글로벌 API 시장에서도 가격 파괴를 일으킬 가능성이 있음.

15. 다음 단계: 합성 데이터 및 휴먼 피드백

DeepSeek 리포트의 결론부에서도 언급되듯, 다음 단계로 가려면 합성 데이터의 적극적 활용이 필요합니다.

  • 대규모로 “모델이 자체 생성한 텍스트”를 재활용하되, 사람이 검수하거나 품질 관리를 해주는 흐름=
  • OpenAI가 RLHF(Reinforcement Learning from Human Feedback)로 GPT 시리즈를 크게 발전시켰던 것과 유사한 원리

하지만 합성 데이터도 처음부터 휴먼이 만든 고품질 데이터가 필요하고, 이를 어떻게 축적하느냐가 가장 큰 챌린지입니다.


결론

DeepSeek LLM은 압도적인 GPU 자원을 기반으로, 공격적인 데이터 수집과 전문적인 아키텍처 실험을 짧은 시간 안에 수행하여, 중국뿐 아니라 전 세계 LLM 업계에서도 주목받는 고성능·저비용 모델을 만들어냈습니다.

  • 다른 빅테크 모델들(GPT-4, Claude, Llama 2 등)과 달리, 자세한 테크니컬 리포트를 공개하여 연구 개발자들에게 영감을 주고 있습니다.
  • 성능 면에서는 코드 및 수학 분야에서 특히 인상적인 결과를 보여주며,
  • 가격 경쟁력 면에서는 1M 토큰당 $0.42 수준으로 저렴한 편이라, API 시장 판도 변화가 예상됩니다.

결과적으로 DeepSeek 사례를 통해, 데이터 품질, 모델 구조, 인프라, 비용 등 LLM 개발의 전 과정을 유기적으로 개선해야만 최고 수준의 모델에 도달할 수 있음을 다시 한번 확인할 수 있습니다. 앞으로 DeepSeek이 추가로 발표할 합성 데이터 활용, 멀티모달 확장 등 후속 연구도 기대해 볼 만합니다. 특히 Nvidia’s assembly-like PTX를 통한 학습 시간 및 효율성을 달성한 것을 보면 AI Engineer와 Ops Engineer 두 축으로 효율적으로 체크 포인트 웨이트들을 관리하고 업데이트하면서 다양한 실험으로 더 나은 모델들을 생성하고, 데이터 퀄리티 및 모델 체크포인트를 효율적으로 관리했다는 것을 알 수 있습니다. 전반적으로 데이터에 대한 정교한 처리가 퍼포먼스를 견인하고, 더 나은 모델을 만들기 위해 연쇄적으로 모델 웨이트를 관리한 것, 그리고 실험 결과 더 나은 방향으로 리서치 아이디어를 공유하며 유기적으로 개발할 수 있던 체계적이고 독재적인 환경(?), 리소스를 전폭적으로 유용받을 수 있던 다양한 개발 요인 등이 크게 작용할 수 있음을 보여준 것 같습니다.

다만 중국의 개발 환경 특성상 상당한 부분의 연구 결과를 투명하고 공개하였으나, 신뢰하기 어려워 추가적인 검증이 필요하고, API 사용에 있어서 약간의 보안 이슈가 있는 것이 아쉬우나 여러모로 느슨해진 LLM 씬에 긴장감을 주고 있는 것 같습니다.

“합성 데이터로 모델을 더 잘 가다듬고, 휴먼 피드백을 통해 룰베이스와 충돌하지 않는 방향으로 발전시킨다면, 곧 ‘다음 세대’로 넘어갈 수 있을 것이다.” – DeepSeek 개발진 인터뷰 요약



참고 자료

  • DeepSeek 공식 리포트 (공개 링크 미제공, 내부 문서 요약본)
  • Common Crawl 전처리 연구들 (arXiv:2406.17557, arXiv:2407.06380 등)
  • Kaplan et al.(2020), Chinchilla(2022), FineWeb, OpenWebMath, InternLM2, CodeGemma, StarCoder 등 다양한 arXiv 논문들
  • OpenAI, Anthropic, Meta, 각 사의 모델 관련 발표 자료 및 공식 블로그
Previous: Tech Report | DeepSeek-V3 Technical Report Next: Satori

post contain ""

    No matching posts found containing ""