DeepSeek-R1 训练 Pipeline

← 中文导读 · ← RL 笔记索引 · ← 演进总览 §3.4 R1 · 《ds-技术报告》 论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning arXiv2501.12948 · PDFDeepSeek-R1 论文 PDF 基座:DeepSeek-V3 Base

Pipeline 总览

参考图(公众号整理版)


总览:两条支路

支路产物核心思想
A. 纯 RLDeepSeek-R1-Zero跳过 SFT,GRPO + 规则 reward,推理能力自发涌现
B. 四阶段DeepSeek-R1继承 R1-Zero 推理,补齐可读性、多语言能力、通用任务与对齐
V3 Base 分叉:纯 RL → R1-Zero vs 四阶段 → R1

图示详情


支路 A:DeepSeek-R1-Zero

输入 / 算法 / Reward

内容
起点DeepSeek-V3 Base
算法GRPO(Group Relative Policy Optimization),无 critic,组内相对 advantage
PromptReasoning prompts(数学/代码/逻辑)
RewardAccuracy(答案对错,sympy 等规则验证)+ Format(`` 等格式约束)
不用神经 RM(防 reward hacking)、SFT 冷启动

涌现行为

  • 响应长度随训练增长(「思考时间」增加)
  • 自反思、验证、换策略
  • 「Aha moment」:模型自发学会重新审视

局限

  • 可读性差、中英混杂
  • 偏推理,写作/开放域 QA 弱

支路 B:DeepSeek-R1 四阶段

中间 checkpoint:Dev-1 → Dev-2 → Dev-3 → R1

阶段 1:冷启动 SFT → R1 Dev-1

内容
数据数千条 Cold Start Long CoT(高质量、对话式、第一人称思考)
来源R1-Zero 高温采样 → 过滤正确+可读 → DeepSeek-V3 精炼 → 人工复核
目的解决 R1-Zero 的语言混杂与表达问题;产品向可读 CoT
数据配比(整理图参考)指令遵循 30% · 知识问答 30% · 推理 20% · 安全对齐 20%

冷启动 CoT 风格要求

  1. 先理解问题 → 详细推理 → 反思与验证
  2. 第一人称、段落简短、避免 markdown
  3. 语言与问题一致(V3 翻译 thinking 消混杂)

Trade-off:Dev-1 指令遵循↑(IF-Eval、ArenaHard),但冷启动数据小,AIME 等推理略降于 R1-Zero


阶段 2:第一阶段 RL → R1 Dev-2

内容
算法GRPO
PromptReasoning prompts
RewardRule-based(同 R1-Zero)+ Language Consistency(目标语言词占比)
关键超参lr=3e-6,每题 16 rollout,max len 32768,clip ratio ε=10

Dev-2 推理能力恢复并超越 Dev-1(Table 3:AIME、Codeforces 等显著提升)。


阶段 3:拒绝采样 + SFT → R1 Dev-3

内容
数据总量~800K SFT 样本
Reasoning~600K:从 Dev-2 checkpoint 拒绝采样(多采样、只留正确);扩展生成式 RM(V3 判对错);过滤混杂语言/长段落/代码块
Non-Reasoning~200K:写作、事实 QA、翻译、自认知、软件工程等(复用 V3 SFT 管线);简单 query 不加 CoT
域分布Math 395K · Code 211K · General 178K · STEM 10K · Logic 10K(Table 5)

后处理链

Dev-2 / R1-Zero / V3 → 采样 → Filter → Refine → SFT 混合数据

图示详情

Dev-3 在推理与通用(MMLU、IF-Eval)上进一步平衡。


阶段 4:第二阶段 RL → DeepSeek-R1

内容
PromptDiverse prompts(推理 + 通用)
Reward$R = R_{\text{reasoning}}^{\text{rule}} + R_{\text{general}}^{\text{RM}} + R_{\text{language}}$
RMHelpful RM(66K 偏好对,只看 summary)+ Safety RM(106K 点式安全标注)
训练共 1700 steps;最后 400 steps 才加入通用指令与偏好 RM(防 reward hacking)
温度0.7(比一阶段低,防incoherent)

最终 R1:推理保持 + helpful & harmless 对齐。


各阶段指标快照

BenchmarkR1-ZeroDev-1Dev-2Dev-3R1
AIME 202471.059.373.376.779.8
MMLU88.889.191.291.090.8
IF-Eval46.671.772.078.183.3
LiveCodeBench50.057.563.565.965.9
ArenaHard53.677.073.275.692.3

与 OneReason / LoRA 系列对照

维度DeepSeek-R1OneReason
领域通用 LLM 推理生成式推荐
纯 RL 探索R1-Zero无直接对应
分阶段 RL两阶段 + 不同 rewardspecialize-then-unify(分域 GRPO)
拒绝采样 SFT800K 混合数据RFT 路径
冷启动数千 Long CoTR0–R3 分层 SFT

蒸馏

DeepSeek-R1 还将长 CoT 能力 蒸馏到小模型(Qwen/Llama 等),开源 R1 系列 checkpoint。


文件索引

文件说明
版本演进总览 §3.4 R1全系列时间线中的 R1 定位
DeepSeek-R1 训练 Pipeline本文
R1 训练管线流程图自绘流程图
R1 训练管线参考图外部参考图
DeepSeek-R1 论文 PDF原文