RLVR

← 中文导读 · ← 仓库首页（EN） · ← 演进总览 §2 · ← R1 梗概 · Raschka §RLVR/GRPO 论文：DeepSeek-R1 arXiv:2501.12948

一句话

RLVR = 在强化学习里 不用神经 reward model，而对 可程序/符号验证 的任务（数学答案、代码单测、格式规则）直接给 0/1 或规则分 作奖励；DeepSeek 用 GRPO 做优化（无 critic 的组内相对 advantage）。R1 = V3-Base 架构不变 + RLVR 后训练。

和 RLHF / GRPO 的关系

PPO vs GRPO：RLHF 神经 RM + Critic 与 RLVR 验证器 + 组内 baseline 对比

图示详情

路线	奖励从哪来	优化算法	典型场景
RLHF	人类偏好训练的神经 RM	PPO（需 critic）	开放域对齐
GRPO	任意标量奖励	组内采样 $G$ 条，相对 baseline 算 advantage；无 critic	省显存、易扩展
RLVR + GRPO	规则 / 验证器（计算器、sympy、单测、格式检查）	同上 GRPO	数学、代码、可判定推理

同一条 prompt 采样 $G$ 次 rollout：每条用 verifier 打分（对/错、格式、语言）→ 组内减均值得 advantage → 更新 policy（R1 上即 V3-Base 权重）。

RLVR 省掉什么：不训、不依赖 reward model，减轻 reward hacking（模型讨好 RM 而非真做对题）。

RLVR 局限：只适合 答案可验证 的短程任务；开放域写作、主观 helpfulness 仍需 RM 或 LLM-as-judge（V3.2 后训练即 RLVR + 生成式 RM 混合）。

DeepSeek-R1 里的 RLVR

算法：GRPO

同一 prompt 生成 $G$ 条 完整回答（R1 一阶段约 16 rollout / 题）
每条算规则奖励 → 组内相对 advantage（无 value network）
配合 KL 到 reference、clip 等稳定训练

R1 奖励

奖励	作用	阶段
Accuracy / verifier	数学、代码等对错（sympy、单测等）	R1-Zero、R1 一阶段 RL
Format	思考/答案分隔、`` 等结构	R1-Zero 起
Language consistency	惩罚中英混杂，鼓励与问题同语言	R1 二阶段 RL 起

两条产物

模型	路径	要点
R1-Zero	V3-Base → 纯 GRPO + RLVR（无 SFT 冷启动）	推理能力自发涌现（长度增长、自反思）；可读性差
R1	冷启动 SFT → RL → 拒绝采样 SFT → RL	在 R1-Zero 能力上补可读性、通用任务、安全

详见 R1 四阶段训练管线（含 Dev-1→R1 与 Table 3 指标）。

在 DeepSeek 系列中的位置

版本	与 RLVR 关系
V3	Base；无 RLVR
R1	RLVR + GRPO 主路径；架构同 V3
V3.1 / Terminus	Hybrid 对话；训练管线不同，非 R1 专用推理模型
V3.2	继承 R1 系 GRPO 经验 + 生成式 RM（开放域）+ DeepSeekMath V2 过程奖励；Raschka 对比

V3-Base 后训练分叉：R1 专用推理 vs V3.1 Hybrid vs V3.2

图示详情

为何 R1 不改架构

RLVR 只改 后训练（采样、奖励、策略梯度），不动 MLA / MoE 结构。因此 R1 与 V3 权重形状、KV cache 格式、推理引擎配置一致——差异在 行为分布（更长 CoT、更强推理）。

延伸

资源	说明
DeepSeek-R1	R1 一页纸梗概
DeepSeek-R1 训练 Pipeline	四阶段 + R1-Zero 详解
Raschka 全文解析 §3.2	RLVR vs PPO vs GRPO 对照表
GRPO 长程任务局限	社区讨论：GRPO 与长程任务局限

论文：R1 2501.12948 · V3 2412.19437

DeepSeek 技术报告