DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错，研究人员：GRPO老问题没解决 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错，研究人员：GRPO老问题没解决

2025-12-04 / 阅读约4分钟

来源：36kr

DeepSeek-V3.2长思考增强版Speciale存在浪费token问题，源于GRPO算法的“长度偏见”，即计算奖励时考虑答案长度，导致模型生成“又长又错”的答案。DeepSeek-V3.2已修正“难度偏见”，但“长度偏见”仍存在。

DeepSeek-V3.2很强很火爆，但随着讨论的深入，还是有bug被发现了。

并且是个老问题：浪费token。

图源：x@Hangslin

不少网友都提到，DeepSeek-V3.2的长思考增强版Speciale，确确实实以开源之姿又给闭源TOP们上了压力，但问题也很明显：

在面对复杂任务时，消耗的token数偏多，甚至可能会出现“又长又错”的答案。

比如，同样解决一个问题，Gemini只用了2万个token，而Speciale需要花费7.7万个。

这是怎么一回事？

没有被纠正的“长度偏见”

有研究者指出，这其实是自DeepSeek-R1-Zero以来，DeepSeek系列模型一直存在的一个“bug”。

简单来说，问题出在了GRPO算法上。

来自Sea AI Lab和新加坡国立大学等研究机构的学者认为，GRPO存在两个“隐藏偏见”。

长度偏见：错误答案越长，惩罚反而会越轻

GRPO计算奖励时，会把“答案长度”算进去，导致短的错误答案被罚得更重。

结果就是：模型会故意生成“又长又错”的答案，看起来像是在“认真推理”，其实是在“凑字数躲惩罚”。

难度偏见：太简单或太难的题被过度关注

GRPO会根据“同一批题的得分标准差”调整权重。比如一道题所有人都做对（标准差小），或所有人都做错（标准差也小），这道题会被当成 “重点” 反复训练；而中等难度、有人对有人错的题（标准差大），反而被忽略。但实际训练中，中等难度的题才是提升能力的关键。

这项研究的核心作者Zichen Liu指出，DeepSeek-V3.2已经通过新的优势值计算方式，修正了“难度偏见”（如下图红框所示）。

但仍然保留了有偏的长度规范项（如下图蓝框所示）。也就是说，“长度偏见”依然存在。

实际上，这个问题DeepSeek官方报告亦有提及。

技术报告中，DeepSeek研究人员坦承，token效率对于DeepSeek-V3.2而言，仍然是个挑战：通常情况下，本次上新的两个模型需要生成更长的轨迹，才能达到Gemini-3.0-Pro的输出质量。

而DeepSeek-V3.2-Speciale本身，也是特意放宽了RL的长度限制，允许模型生成极长思维链，使得模型能够通过大量消耗token来进行深度的自我修正和探索。

可以说走的是一条“在超长上下文下持续扩展强化学习”的路线。

考虑到从百万token的输出成本来看，DeepSeek-V3.2价格仅为GPT-5的1/24，似乎也尚可接受。

另外，也有网友指出，DeepSeek的128K上下文已经很久没动了。这与GPU资源有限也不无关系。

你是否也已经用上DeepSeek-V3.2了？体验如何，欢迎在评论区与我们分享~

参考链接

[1]https://x.com/zzlccc/status/1995770284385992798

[2]https://api-docs.deepseek.com/news/news251201

上一篇：卢伟冰回应罗福莉加入小米及未来 AI 新战略：不能透露太多，但小米在大模型应用方面进展远超预期

下一篇：后生可畏，何恺明团队新成果发布，共一清华姚班大二在读

返回列表

热文阅读

2 天前

吓到奥特曼，暂停训练GPT-6？Hugging Face公开首个AI攻击全过程

2 天前

马斯克两个核心资产，正在同时遭遇市场拷问

1 天前

比亚迪AI团队首次曝光，哈工大机器人基因亮眼，大模型首发即SOTA

2 天前

柔性触觉感知企业获新一轮融资，预计2026年公司营收翻10倍｜硬氪首发

2 天前

OpenAI 模型失控受害者不仅只有 Hugging Face，Modal Labs 确认一名客户被黑

2 天前

AI 推动软件漏洞发现速度大幅加快，今年数量较去年预计翻番

2 天前

大众 EA211 补发宣传：支持 92/95/98 号多油品适配，对垒小米澎程昆仑增程器

2 天前

OpenAI奥尔特曼：人们并不想要AI CEO，且更珍视人性联结

1 天前

字节调整飞书、火山、豆包组织架构，ToB业务走向一体化

2 天前

被解雇的特斯拉 FSD 区域经理起诉前东家，直言 Robotaxi 是“移动的危险”

上一篇：卢伟冰回应罗福莉加入小米及未来 AI 新战略：不能透露太多，但小米在大模型应用方面进展远超预期

下一篇：后生可畏，何恺明团队新成果发布，共一清华姚班大二在读

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们