DeepSeek-R1 梗概
← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.4 · ← 版本目录 · RLVR 详解 · Raschka §RLVR/GRPO
定位
2025 年 1 月发布,基于 DeepSeek-V3-Base 的 推理专精 模型。架构与 V3 完全相同(671B / 37B activated / 128K);差异在 RLVR + GRPO 后训练,带火「可验证奖励强化学习」路线。
核心训练
| 组件 | 要点 |
|---|---|
| 基座 | DeepSeek-V3-Base,零架构改动 |
| RLVR | 规则/验证器奖励,无神经 RM → RLVR |
| GRPO | 组内相对 advantage,无 critic |
| R1-Zero | 纯 RL 探索路径(无 SFT 冷启动) |
| R1 | 冷启动 SFT → RL → 拒绝采样 SFT → 二阶段 RL(+ 通用 RM) |
与相邻版本
| 维度 | V3 | R1 | V3.1 |
|---|---|---|---|
| 架构 | MoE + MLA | 同 V3 | 同 V3 |
| 定位 | 通用 Base | 推理 / CoT | Hybrid chat + thinking |
| 后训练 | SFT + RL(V3 论文) | RLVR 为主 | 另一套 post-train |
推理 infra
与 V3 相同:MLA latent KV、--trust-remote-code、--block-size 1 等。