문제
기존 접근법의 한계
RAG(Retrieval-Augmented Generation)
RL + Real Search (예: Search-R1, DeepResearcher)
ZeroSearch 아이디어
기호 | 의미 | 자연어 해석 |
---|---|---|
$x$ | 질문(question) | 모델이 답해야 하는 문제 |
$\mathcal D$ | 질문 분포 | 학습·평가용 문제 풀(pool) |
$y$ | 모델의 전체 출력 | <think> + <search> + <answer> 토큰 시퀀스 |
$\pi_\theta$ | Policy LLM | 지금 학습시키려는 주인공 모델 |
$\pi_\psi$ | Simulation LLM | ‘가짜 Google’ 역할, 파라미터 고정 |
$r_\varphi$ | Reward 함수 | 답의 F1 정확도(아래 5절) |
$\pi_{\text{ref}}$ | 참조(reference) 모델 | KL 패널티서 로 들어가되는 한구버전/동방지함.모델 |
$\beta$ | 온도 계수 | 보상 vs. 안정성의 트레이드오프 |
직관적 비유
<think> 내부 추론 (Chain-of-Thought) </think>
<search> Query_1 </search>
<information>
Doc 1
Doc 2
...
</information>
<think> 새 정보 반영한 추론 </think>
...
<answer> 최종 답 </answer>
<think>
태그 안에 기록
→ 이 부분은 사람에게 보여주지 않아도 RL에서는 gradient가 흐르게 됨.<search>
태그로 query string을 던짐.<answer>
태그에 짧고 확정적인 정답만 넣음.Why 3-way 분리?
- Debug 가능: 어디서 논리 오류가 났는지 트레이싱 가능
- Reward 단일화: 정답만 보상하고, 포맷은 규칙으로 강제해 hacking을 방지
정답을 맞힌 세션은 positive, 틀린 세션은 negative로 라벨링 수행
You are the Google search engine.
Given a query, generate five [useful / noisy] documents...
The user tries to answer: [QUESTION] whose answer is [ANSWER].
[useful / noisy]
단어 하나만 바꿔 넣어 문서 품질을 손쉽게 제어하고,화가에게 “선명한 그림 vs. 일부러 번진 그림” 둘 다 그리게 연습시키는 것과 비슷하고, 문장 몇 줄로 화풍(noise level)을 스위치할 수 있으니, curriculum을 통해 쉽게 활용할 수 있게 됩니다.
기호 | 설명 |
---|---|
$p_i$ | 학습 스텝 $i$에서 시뮬레이터가 노이즈 문서를 낼 확률 |
$p_s$ | start probability (예: 0.1) |
$p_e$ | end probability (예: 0.9) |
$i$ / $m$ | 현재 스텝 / 총 스텝 (0~1의 진행률) |
$b$ | 지수 성장율 (4면 완만→급격) |
search
API 사용법과 출력 포맷을 익히고,항목 | 수식 내 의미 | 예시 |
---|---|---|
IN (Intersection) | 예측·정답이 공통으로 가진 단어 수 | “Alexander Hamilton”, “Hamilton” → IN = 1 |
PN (Prediction Len) | 예측 단어 수 | 2 |
RN (Reference Len) | 정답 단어 수 | 1 |
알고리즘 | 특징 | ZeroSearch 적용 |
---|---|---|
PPO | KL 클리핑, 안정적 | πθ와 별도 value head 사용 |
GRPO | 그룹 rollout, variance ↓ | 동일 prompt에 5개 응답 샘플 |
Reinforce++ | baseline 감산 | 논문 부록에서 호환 |
Gradient Masking
모델 패밀리
데이터셋
검색 비교 대상
하이퍼파라미터
Reward Curve
Interaction Turns
Simulation LLM | Google 대비 | 실무 코멘트 |
---|---|---|
Prompt-3B | -12% | Prompt-engineering만으로는 역부족 |
SFT-3B | -0%~-5% | 작은 GPU로 시작 가능 |
SFT-7B | 2-GPU 서버 권장 | |
SFT-14B | +1%~+3% | 지식 범위가 넓어 noise 식별 ↑ |
Compute vs API Cost Trade-off
Domain Customization
Scalable Curriculum
Hybrid Mode 가능성
제한 | 상세 설명 | 가능 연구 방향 |
---|---|---|
시뮬레이터 최신성 부족 | LLM컷오프 이후 뉴스·이벤트 미포함 | 주기적 incremental SFT, Streaming Retraining |
GPU 인프라 필요 | 14B 시 단일 A100 ≈ ~70 ms/5 docs | LLM distillation으로 3B sim 빠르게 대체 |
고품질 라벨링 비용 | positive/negative trajectory 수집에 real search 호출은 여전히 필요 | Active learning으로 minimal set만 샘플링 |