DeepSeek-R1 梗概

← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.4 · ← 版本目录 · RLVR 详解 · Raschka §RLVR/GRPO


定位

2025 年 1 月发布,基于 DeepSeek-V3-Base推理专精 模型。架构与 V3 完全相同(671B / 37B activated / 128K);差异在 RLVR + GRPO 后训练,带火「可验证奖励强化学习」路线。

核心训练

组件要点
基座DeepSeek-V3-Base,零架构改动
RLVR规则/验证器奖励,无神经 RM → RLVR
GRPO组内相对 advantage,无 critic
R1-Zero纯 RL 探索路径(无 SFT 冷启动)
R1冷启动 SFT → RL → 拒绝采样 SFT → 二阶段 RL(+ 通用 RM)

训练管线DeepSeek-R1 训练 Pipeline

与相邻版本

维度V3R1V3.1
架构MoE + MLA同 V3同 V3
定位通用 Base推理 / CoTHybrid chat + thinking
后训练SFT + RL(V3 论文)RLVR 为主另一套 post-train

推理 infra

与 V3 相同:MLA latent KV--trust-remote-code--block-size 1

参考