DeepSeek-R1 梗概

← 中文导读 · ← 仓库首页（EN） · ← 演进总览 §3.4 · ← 版本目录 · RLVR 详解 · Raschka §RLVR/GRPO

定位

2025 年 1 月发布，基于 DeepSeek-V3-Base 的 推理专精 模型。架构与 V3 完全相同（671B / 37B activated / 128K）；差异在 RLVR + GRPO 后训练，带火「可验证奖励强化学习」路线。

核心训练

组件	要点
基座	DeepSeek-V3-Base，零架构改动
RLVR	规则/验证器奖励，无神经 RM → RLVR
GRPO	组内相对 advantage，无 critic
R1-Zero	纯 RL 探索路径（无 SFT 冷启动）
R1	冷启动 SFT → RL → 拒绝采样 SFT → 二阶段 RL（+ 通用 RM）

训练管线：DeepSeek-R1 训练 Pipeline

与相邻版本

维度	V3	R1	V3.1
架构	MoE + MLA	同 V3	同 V3
定位	通用 Base	推理 / CoT	Hybrid chat + thinking
后训练	SFT + RL（V3 论文）	RLVR 为主	另一套 post-train

推理 infra

与 V3 相同：MLA latent KV、--trust-remote-code、--block-size 1 等。

参考