GRPO 长程任务局限

← 中文导读 · ← 仓库首页（EN） · ← RL 笔记索引 · ← RLVR · GRPO · ← 演进总览 §3.4 R1 · 书中对应

作者：划水的青蛙 · 知乎原文
性质：社区讨论整理；非 DeepSeek 官方文档。商业转载请联系原作者。

一句话

GRPO 仍是好算法，但 R1 时代验证的是 短程、可终局判分 的任务；硬搬到 长程 Agent / 编程 时，会在 吞吐、奖励稀疏、组内可比性 上同时吃瘪——智谱、MiniMax、DeepSeek 的后续路线都在 绕开或补 GRPO 的短板。

阶段	代表	任务形态
2024 末–2025 初	DeepSeek R1、OpenAI O 系	数学、代码单测等短而可验证
2025 下	Sonnet 4.5、Opus + Claude Code 等	长程编程 / 多步 Agent 真正可用

R1 的 RLVR + GRPO 针对的是 同一 prompt、$G$ 条 rollout、终局 verifier 打分——在短 CoT 上成立。长程任务把 轨迹长度、上下文压缩、延迟归因 拉进同一个组内比较，前提就被动摇了。

长程 RL 要先解决 怎么跑起来，再谈算法：

社区归纳 GRPO / RLVR 能 work 的三条前提，以及长程下的裂缝：

同一长程 prompt 采样 $G=4$，终局成功 $=1$、失败 $=0$，组内均分 $\bar r = 0.5$：

样本	轨迹特征	终局分	组内 advantage
A	约 4k token，路径干净	1	$+0.5$
B	约 200k token，大量试错 + 工具调用 + 上下文压缩	1	$+0.5$
C	与 B 类似过程	0	$-0.5$
D	与 B 类似过程	0	$-0.5$

问题在于：

同样的 $+0.5$，A 与 B 不是一回事：B 里大量 冗余 token 也被正向奖励 → per-token 信用分配不一致。
B 后半段 可能在 摘要/压缩后的上下文 上生成，与 A 全程单一状态 的轨迹 不可比。
GRPO 只奖终局：无法表达「前半段垃圾、后半段正确」这类 过程结构。

模型收到的是 「这次整体不行」，而不是 「第 $X$ 步动作错了」。错误可能要 几十步之后 才暴露，需要 反传归因——critic / 过程奖励 擅长，纯组内终局比较 不擅长。

退化态	现象	长程为何更致命
$G$ 条全败	组内 advantage 全为 0 或无效更新	长 rollout 耗时极长，完全无信号
仅 1 条成功	唯一成功轨迹获得巨大正 advantage	长任务基线成功率极低，成功多半是偶然 → 高方差事件被当成强监督灌进梯度 → 训练死循环

短程任务里「独赢」相对少见；长程里 二者都更常出现。

方向	做法（原文归纳）	本质
智谱	Critic 回归，做 token 级 advantage	恢复细粒度信用分配
MiniMax	CISPO + 复合奖励（过程 / 时间 / 结果）+ Forge 调度	新算法 + 新 infra，不硬扛纯终局 GRPO
DeepSeek	GRPO 训专家模型，On-Policy Distillation 在探索时给监督	专家提供过程/行为信号，不全靠组内终局分

三家路径不同，共同点：承认 GRPO 直接硬上长程不够，要在 critic、过程奖励、蒸馏监督 上补洞。

与本地文档的对照：

资源	说明
RLVR 详解	可验证奖励 + GRPO 机制
GRPO vs PPO 对照图	PPO（critic）vs GRPO（组内 baseline）对照图
知乎原文	未删节的社区论述