RL / 后训练笔记
| 文档 | 内容 |
|---|---|
| RLVR 详解 | 可验证奖励强化学习;R1 的 GRPO + 规则奖励 |
| R1 梗概 | V3-Base + RLVR,架构不变 |
| R1 训练管线 | 四阶段 Dev-1→R1、R1-Zero |
| GRPO 长程任务局限 | 社区长文:GRPO 与长程任务局限 |
| 文档 | 内容 |
|---|---|
| RLVR 详解 | 可验证奖励强化学习;R1 的 GRPO + 规则奖励 |
| R1 梗概 | V3-Base + RLVR,架构不变 |
| R1 训练管线 | 四阶段 Dev-1→R1、R1-Zero |
| GRPO 长程任务局限 | 社区长文:GRPO 与长程任务局限 |