RL / 后训练笔记

← 演进总览 §3.4 R1 · RLVR 详解 · 书中 RL 卷

文档	内容
RLVR 详解	可验证奖励强化学习；R1 的 GRPO + 规则奖励
R1 梗概	V3-Base + RLVR，架构不变
R1 训练管线	四阶段 Dev-1→R1、R1-Zero
GRPO 长程任务局限	社区长文：GRPO 与长程任务局限