GRPO 长程任务局限

← 中文导读 · ← 仓库首页(EN) · ← RL 笔记索引 · ← RLVR · GRPO · ← 演进总览 §3.4 R1 · 书中对应

作者:划水的青蛙 · 知乎原文
性质:社区讨论整理;非 DeepSeek 官方文档。商业转载请联系原作者。


一句话

GRPO 仍是好算法,但 R1 时代验证的是 短程、可终局判分 的任务;硬搬到 长程 Agent / 编程 时,会在 吞吐、奖励稀疏、组内可比性 上同时吃瘪——智谱、MiniMax、DeepSeek 的后续路线都在 绕开或补 GRPO 的短板


背景:短程优化 vs 长程 Agent

阶段代表任务形态
2024 末–2025 初DeepSeek R1、OpenAI O 系数学、代码单测等 短而可验证
2025 下Sonnet 4.5、Opus + Claude Code 等长程编程 / 多步 Agent 真正可用

R1 的 RLVR + GRPO 针对的是 同一 prompt、$G$ 条 rollout、终局 verifier 打分——在短 CoT 上成立。长程任务把 轨迹长度、上下文压缩、延迟归因 拉进同一个组内比较,前提就被动摇了。


核心结论

维度短程(R1 舒适区)长程(GRPO 吃力)
奖励终局 0/1 或规则分,相对稠密极度稀疏;整段 rollout 可能 零信号
吞吐单题 rollout 短,组内 $G$ 条可并行收尾长短任务 混训 → 算力空转;分阶段训 → 梯度震荡
比较单位同一题下 $G$ 次 平行、完整 作答轨迹 状态不一致(压缩、工具调用、试错长度差几个数量级)

工程瓶颈:吞吐 vs 样本多样性

长程 RL 要先解决 怎么跑起来,再谈算法:

  1. 先短后长:课程从短任务切到长任务时,梯度信号剧烈震荡
  2. 长短混训、同组打分:短 rollout 先结束,长 rollout 还在跑 → 组内 advantage 汇总前 大量 GPU 空转
  3. 全组长程失败:一组任务跑数小时、$G$ 条全败 → 零 reward,等于白烧资源(见下文「全败退化态」)。

GRPO 的三条前提

社区归纳 GRPO / RLVR 能 work 的三条前提,以及长程下的裂缝:

前提短程下长程下的问题
同题可比较同一 prompt 下 $G$ 条 独立完整 轨迹,比终局分即可轨迹 状态空间不一致(见下例)
信号可验证答案 / 单测 终局可判只有「整体不行」,第几步错 要几十步后才显现
组内能降噪看相对组均,滤掉绝对分噪声稀疏 + 低成功率 → 全败独赢 两种退化(见下节)

同题可比较:A/B/C/D 反例

同一长程 prompt 采样 $G=4$,终局成功 $=1$、失败 $=0$,组内均分 $\bar r = 0.5$:

样本轨迹特征终局分组内 advantage
A约 4k token,路径干净1$+0.5$
B约 200k token,大量试错 + 工具调用 + 上下文压缩1$+0.5$
C与 B 类似过程0$-0.5$
D与 B 类似过程0$-0.5$

问题在于:

  • 同样的 $+0.5$,A 与 B 不是一回事:B 里大量 冗余 token 也被正向奖励per-token 信用分配不一致
  • B 后半段 可能在 摘要/压缩后的上下文 上生成,与 A 全程单一状态 的轨迹 不可比
  • GRPO 只奖终局:无法表达「前半段垃圾、后半段正确」这类 过程结构

信号可验证 → 延迟归因

模型收到的是 「这次整体不行」,而不是 「第 $X$ 步动作错了」。错误可能要 几十步之后 才暴露,需要 反传归因——critic / 过程奖励 擅长,纯组内终局比较 不擅长。

组内降噪 → 两种退化态

退化态现象长程为何更致命
$G$ 条全败组内 advantage 全为 0 或无效更新长 rollout 耗时极长完全无信号
仅 1 条成功唯一成功轨迹获得 巨大正 advantage长任务 基线成功率极低,成功多半是 偶然 → 高方差事件被当成 强监督 灌进梯度 → 训练 死循环

短程任务里「独赢」相对少见;长程里 二者都更常出现


业界应对

方向做法(原文归纳)本质
智谱Critic 回归,做 token 级 advantage恢复细粒度信用分配
MiniMaxCISPO + 复合奖励(过程 / 时间 / 结果)+ Forge 调度新算法 + 新 infra,不硬扛纯终局 GRPO
DeepSeekGRPO 训 专家模型On-Policy Distillation 在探索时给监督专家提供 过程/行为 信号,不全靠组内终局分

三家路径不同,共同点:承认 GRPO 直接硬上长程不够,要在 critic、过程奖励、蒸馏监督 上补洞。

与本地文档的对照:

本地关联
RLVR · GRPOR1 短程可验证 场景下 GRPO 怎么工作
R1 训练管线四阶段 + R1-Zero; 长程 Agent 专文
Raschka §RLVR/GRPOV3.2 如何在 GRPO 上叠 生成式 RM / 混合奖励

延伸阅读

资源说明
RLVR 详解可验证奖励 + GRPO 机制
GRPO vs PPO 对照图PPO(critic)vs GRPO(组内 baseline)对照图
知乎原文未删节的社区论述