GRPO过时了吗？ - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

GRPO过时了吗？

4 小时前 / 阅读约10分钟

来源：36kr

智谱宣布GLM-5.2完全开源，放弃GRPO，转向基于critic的PPO，以适应长程智能体任务。此举引发技术圈讨论，强化学习算法选择正变得任务相关。

6 月 13 日，智谱在 X 平台宣布 GLM-5.2 完全开放，并把正式开放的时间定在了当晚 5 点 21 分——一个「特殊时刻」。

很多人认为这个数字不是随便挑的：美国政府向 Anthropic 下发出口管制指令、切断 Fable 5 与 Mythos 5 境外访问权限的那一刻，正是美国东部时间下午 5 点 21 分。「5 点 21」这个数字上的重复，被多家媒体解读为一次刻意设计的呼应。智谱选择在这个节点站出来，相当于当着全世界开发者的面说了一句话：你们担心的「模型随时可能被收回」，开源这边没有这个问题。

这次发布也确实给得起这个姿态。GLM-5.2 是一个 744B 参数、激活 40B 的 MoE 模型，遵循 MIT 协议完全开源，支持真正可用的 1M token 上下文。在长程任务基准 FrontierSWE 上，它拿到 74.4%，逼近 Claude Opus 4.8 的 75.1%，反超 GPT-5.5 的 72.6%。不少开发者实测后表示，这是第一个让他们认真考虑用来替换 Opus 或 GPT 工作流的开源模型。

昨天 Design Arena 发布的博客《GLM-5.2 如何在网站设计上击败了 Fable 5》更是成为爆款文章，引发了广泛关注和热议。

但比这些分数更让技术圈坐不住的，是一个差点被淹没在技术博客角落里的细节：GLM-5.2 在长程强化学习阶段，放弃了 GRPO。

图源: X @JoshPurtell @sheriyuo @MikaStars39

这件事不大，却像一根针，扎破了一个维持了一年多的共识。GRPO（Group Relative Policy Optimization，群体相对策略优化）由 DeepSeek 于 2024 年在 DeepSeekMath 论文中提出，又经 DeepSeek-R1 验证，此后几乎成了开源社区训练推理模型的默认答案——不需要价值网络，也能训出强推理能力。GLM-5.1 的强化学习阶段，用的正是这套思路。一年多以后，GLM-5.2 悄悄把它换掉了。

一个被验证过的范式，正在被它最早的追随者之一悄悄抛弃。

技术社区的反应

消息传开后，X 上的讨论很快分成了几条线。

有人把这件事称为「critic 回来了」。开发者@hallerite 的判断很直接：群体内比较这种降低方差的办法，过了某个任务长度之后根本行不通，模型需要更细粒度的信号，OpenAI 和 Anthropic 大概早就在用价值网络了。

类似地帖子非常多，有人说自己在小规模项目里对比过 GRPO 和 actor-critic，结果 actor-critic 的表现明显更好；也有人怀疑，OpenAI 和 Anthropic 等前沿实验室在长程任务上本来就没有真正依赖过 GRPO，这只是长程任务迟早要撞上的一道墙；比如 @ethayarajh 就指出，曾被 NeurIPS 拒收的 PPO 这条路线其实更贴近强化学习圈子里常说的「苦涩的教训」（bitter lesson）——足够通用、能随计算量扩展的方法，往往比结构精巧但有适用边界的方法走得更远。

Xiuyu Li 提醒，一些长期做长程任务训练的团队，本来就从未真正全面采用过 GRPO，PPO 甚至 REINFORCE 一直是这些团队的底色。

学术界则是另一幅景象：GSPO、DAPO、Dr.GRPO、GMPO、CISPO 等变体仍在源源不断地涌现，试图把 GRPO 在效率和稳定性上的毛病一个个打磨掉。

工业界悄悄回头，学术界继续往前冲。这个反差，很有意思。

智谱为什么换掉了 GRPO

要理解这次切换，得先弄清楚 GRPO 最初解决的是什么问题。

传统 PPO 需要一个价值网络（critic），专门预测「当前状态未来能拿多少奖励」，用来给每一步动作算优势值。这个网络和策略模型一样大，训练起来贵，也容易不稳定。

GRPO 的办法是：不训练这个价值网络了，改成让模型对同一个问题生成一组（通常是几十个）回答，拿组内平均奖励当基线，谁比组内平均分高，优势值就为正。这就像让同一道题的几十名学生同时交卷，再互相比较打分——不需要一个全知的阅卷老师，矮子里也能拔将军。

对数学题、单元测试这类有明确对错的短任务，这个办法省显存又稳定，DeepSeek-R1 之后几乎成了开源社区的默认选项。

GLM-5.1 的强化学习阶段，用的正是这套思路，组大小固定为 32。

但 GLM-5.2 瞄准的是另一类问题：长程智能体任务。根据智谱技术博客披露的内容，这类任务的执行轨迹远比解一道数学题长，涉及多轮工具调用、子任务拆解、跨多轮的环境反馈。一条轨迹经过压缩（compaction）处理后，子轨迹的数量和长度会变得参差不齐。

这正好打中了 GRPO 的软肋：它要求把同一个问题下的一组输出放在一起比较，可长程任务压缩出来的子轨迹长短不一，有的三言两语，有的拖了几十步，根本凑不成一组可以公平比较的样本。继续硬上组内比较，大量数据会变得没法用。

智谱给出的解法是：把价值网络请回来。GLM-5.2 的长程强化学习从「群体相对优化」转向了「基于 critic 的 PPO」，用 token 级别的优势值去适配长短不一的子轨迹——不再依赖一组同伴互相打分，而是重新训练一个能给任意一段轨迹独立估值的「阅卷老师」。

图源：DeepSeek 陈德里的推文

配合这次改动，智谱用 slime 框架把训练和大规模推理 rollout 打通，将十余个专家模型并行蒸馏合并进最终模型，整个过程只用了约两天。针对 coding 任务里常见的奖励作弊（比如直接 curl 拉取参考答案、grep 搜索隐藏测试用例文件），GLM-5.2 还引入了一套两阶段拦截机制，先用规则过滤，再用 LLM 裁判识别可疑工具调用，拦截后返回一段无意义的「假信息」，让训练轨迹继续走下去，而不是粗暴中断，以免引发训练不稳定。

简单说，GLM-5.2 并未否定 GRPO，而是发现 GRPO 的设计前提在长程智能体任务里站不住了。

GRPO 真的过时了吗

把这次切换简单总结成「GRPO 不行了」，可能是个偷懒的结论。

GRPO 当年能火起来，解决的是一个很具体的问题：在有明确对错的可验证任务上，用尽可能少的显存、尽可能稳定的方式做强化学习。这件事它依然做得很好。数学题、代码单元测试、格式校验这类短任务，答案就在那一组采样里，组内比较的成本优势依然成立。也因此，GSPO、DAPO 这些变体还在持续打磨 GRPO 在 MoE 训练、长思维链场景下的毛刺，而不是直接宣布它退场。

一个更能说明问题的例子是 GRPO 的提出者自己。今年 4 月发布的 DeepSeek V4 技术报告显示，DeepSeek 在训练数学、代码、Agent、指令跟随等分领域专家模型时，用的依然是 GRPO，只是在把多个专家合并回一个统一模型时，换成了一种叫「在策略蒸馏」（On-Policy Distillation）的新方法。

GLM-5.2 换掉的其实是 GRPO 在另一类任务（多轮、长程、奖励稀疏且延迟的智能体任务）上的适用性。这类任务里，「这一步做得好不好」往往要等到几十步之后才能从最终结果反推回来，而且任务跑出来的轨迹长短千差万别，很难找到一组「条件相同」的样本去做组内对比

这个判断不只是工业界这一轮的经验之谈，学术界也有对照实验支持。

去年底一篇题为《Learning Without Critics? Revisiting GRPO in Classical Reinforcement Learning Environments》的论文专门做过测试：在没有提前终止机制的长程任务里，不带 critic 的方法持续比不过带学习到的价值函数的 PPO；只有像 CartPole 这种短程任务，组内比较的方式才能打平。