RL / 后训练笔记

← 演进总览 §3.4 R1 · RLVR 详解 · 书中 RL 卷

文档内容
RLVR 详解可验证奖励强化学习;R1 的 GRPO + 规则奖励
R1 梗概V3-Base + RLVR,架构不变
R1 训练管线四阶段 Dev-1→R1、R1-Zero
GRPO 长程任务局限社区长文:GRPO 与长程任务局限