GRPO 长程任务局限
← 中文导读 · ← 仓库首页(EN) · ← RL 笔记索引 · ← RLVR · GRPO · ← 演进总览 §3.4 R1 · 书中对应
作者:划水的青蛙 · 知乎原文
性质:社区讨论整理;非 DeepSeek 官方文档。商业转载请联系原作者。
一句话
GRPO 仍是好算法,但 R1 时代验证的是 短程、可终局判分 的任务;硬搬到 长程 Agent / 编程 时,会在 吞吐、奖励稀疏、组内可比性 上同时吃瘪——智谱、MiniMax、DeepSeek 的后续路线都在 绕开或补 GRPO 的短板。
背景:短程优化 vs 长程 Agent
| 阶段 | 代表 | 任务形态 |
|---|---|---|
| 2024 末–2025 初 | DeepSeek R1、OpenAI O 系 | 数学、代码单测等 短而可验证 |
| 2025 下 | Sonnet 4.5、Opus + Claude Code 等 | 长程编程 / 多步 Agent 真正可用 |
R1 的 RLVR + GRPO 针对的是 同一 prompt、$G$ 条 rollout、终局 verifier 打分——在短 CoT 上成立。长程任务把 轨迹长度、上下文压缩、延迟归因 拉进同一个组内比较,前提就被动摇了。
核心结论
| 维度 | 短程(R1 舒适区) | 长程(GRPO 吃力) |
|---|---|---|
| 奖励 | 终局 0/1 或规则分,相对稠密 | 极度稀疏;整段 rollout 可能 零信号 |
| 吞吐 | 单题 rollout 短,组内 $G$ 条可并行收尾 | 长短任务 混训 → 算力空转;分阶段训 → 梯度震荡 |
| 比较单位 | 同一题下 $G$ 次 平行、完整 作答 | 轨迹 状态不一致(压缩、工具调用、试错长度差几个数量级) |
工程瓶颈:吞吐 vs 样本多样性
长程 RL 要先解决 怎么跑起来,再谈算法:
- 先短后长:课程从短任务切到长任务时,梯度信号剧烈震荡。
- 长短混训、同组打分:短 rollout 先结束,长 rollout 还在跑 → 组内 advantage 汇总前 大量 GPU 空转。
- 全组长程失败:一组任务跑数小时、$G$ 条全败 → 零 reward,等于白烧资源(见下文「全败退化态」)。
GRPO 的三条前提
社区归纳 GRPO / RLVR 能 work 的三条前提,以及长程下的裂缝:
| 前提 | 短程下 | 长程下的问题 |
|---|---|---|
| 同题可比较 | 同一 prompt 下 $G$ 条 独立完整 轨迹,比终局分即可 | 轨迹 状态空间不一致(见下例) |
| 信号可验证 | 答案 / 单测 终局可判 | 只有「整体不行」,第几步错 要几十步后才显现 |
| 组内能降噪 | 看相对组均,滤掉绝对分噪声 | 稀疏 + 低成功率 → 全败 或 独赢 两种退化(见下节) |
同题可比较:A/B/C/D 反例
同一长程 prompt 采样 $G=4$,终局成功 $=1$、失败 $=0$,组内均分 $\bar r = 0.5$:
| 样本 | 轨迹特征 | 终局分 | 组内 advantage |
|---|---|---|---|
| A | 约 4k token,路径干净 | 1 | $+0.5$ |
| B | 约 200k token,大量试错 + 工具调用 + 上下文压缩 | 1 | $+0.5$ |
| C | 与 B 类似过程 | 0 | $-0.5$ |
| D | 与 B 类似过程 | 0 | $-0.5$ |
问题在于:
- 同样的 $+0.5$,A 与 B 不是一回事:B 里大量 冗余 token 也被正向奖励 → per-token 信用分配不一致。
- B 后半段 可能在 摘要/压缩后的上下文 上生成,与 A 全程单一状态 的轨迹 不可比。
- GRPO 只奖终局:无法表达「前半段垃圾、后半段正确」这类 过程结构。
信号可验证 → 延迟归因
模型收到的是 「这次整体不行」,而不是 「第 $X$ 步动作错了」。错误可能要 几十步之后 才暴露,需要 反传归因——critic / 过程奖励 擅长,纯组内终局比较 不擅长。
组内降噪 → 两种退化态
| 退化态 | 现象 | 长程为何更致命 |
|---|---|---|
| $G$ 条全败 | 组内 advantage 全为 0 或无效更新 | 长 rollout 耗时极长,完全无信号 |
| 仅 1 条成功 | 唯一成功轨迹获得 巨大正 advantage | 长任务 基线成功率极低,成功多半是 偶然 → 高方差事件被当成 强监督 灌进梯度 → 训练 死循环 |
短程任务里「独赢」相对少见;长程里 二者都更常出现。
业界应对
| 方向 | 做法(原文归纳) | 本质 |
|---|---|---|
| 智谱 | Critic 回归,做 token 级 advantage | 恢复细粒度信用分配 |
| MiniMax | CISPO + 复合奖励(过程 / 时间 / 结果)+ Forge 调度 | 新算法 + 新 infra,不硬扛纯终局 GRPO |
| DeepSeek | GRPO 训 专家模型,On-Policy Distillation 在探索时给监督 | 专家提供 过程/行为 信号,不全靠组内终局分 |
三家路径不同,共同点:承认 GRPO 直接硬上长程不够,要在 critic、过程奖励、蒸馏监督 上补洞。
与本地文档的对照:
| 本地 | 关联 |
|---|---|
| RLVR · GRPO | R1 短程可验证 场景下 GRPO 怎么工作 |
| R1 训练管线 | 四阶段 + R1-Zero;非 长程 Agent 专文 |
| Raschka §RLVR/GRPO | V3.2 如何在 GRPO 上叠 生成式 RM / 混合奖励 |
延伸阅读
| 资源 | 说明 |
|---|---|
| RLVR 详解 | 可验证奖励 + GRPO 机制 |
| GRPO vs PPO 对照图 | PPO(critic)vs GRPO(组内 baseline)对照图 |
| 知乎原文 | 未删节的社区论述 |