Claude 又又又又降智了，只有它自己不知道 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

Claude 又又又又降智了，只有它自己不知道

6 小时前 / 阅读约14分钟

来源：36kr

网友爆料Claude模型推理能力下降，测试显示思考深度降低67%，幻觉加深。Claude团队回应称调整为自适应思维模式，非故意降智。AMD报告显示API请求增加，成本上升。算力紧缺或为模型降智原因。

已经记不清这是第几次，有网友爆出来 Claude 降智了，思考深度下降 67%，Opus 幻觉加深。关键是能力变弱和可靠性降低的同时，我们的 Token 使用还增加了。

网友们在社交媒体上抱怨，「过去两个月，我一直在用 Opus 4.6，现在我发现它被大幅度削弱了。」然后用各种各样的梗图，来描述自己过去一周用 Opus 4.6 体验 be like。

推文来源：X@safaricheung

披着狮子皮的狗，看起来很厉害，网友说实际体验像是 Sonnet 3.5。还有网友拿之前的走路还是开车去洗车的问题，对 Opus 4.6 和 Opus 4.5 进行测试。

结果显示，Opus 连续五次的回答都是说 Walk，走路去；而在选择旧模型 Opus 4.5 之后，模型恢复正常，能意识到洗车需要开车去。

测试的博主表示，如果想要更清楚的看到 Claude 降智的表现，只需要多测试几轮 4.5 和 4.6 两个版本的回答，就能看到明显的影响。

还有网友说，Claude 的持续推理能力变差之后，经常任务执行到一半就自动放弃了，各种自相矛盾的回复也变得比以往更多。

但就算是 Claude 降智了，也绝对比我聪明，毕竟……

X 上讨论这件事的人非常多，「AI shrinkflation（缩水）」这个词也开始流行，花了同样的价格，却体验着更差的产品。

有人说自己的信息流里，全都是在说 Claude 降智的人，反问 Anthropic 为什么会想要削弱自己的模型。

Claude Code 的负责人 Boris Cherny 在 X 上回复了相关的质疑，提到所谓的思考深度降低，并不是因为偷偷摸摸的在削弱 Claude，而是为了回应用户反馈 Token 消耗过多的问题。

紧接着 Claude Code 团队成员 Thariq Shihipar 也在这条「实锤 Claude 降智」的帖子下回复，他们不会为了更好的满足自己的需求，而故意降低模型的性能，这一点他们已经说过很多次。

确实说过很多次，早在去年，Claude 官方就曾回应过类似的争议。当时，他们表示找到了三个影响 Claude 回答质量下降的问题，并发布技术报告，原因是底层基础设施的架构出现了 Bug。

还有网友说，有没有一种可能是我们在和 AI 聊天的过程中变得越来越聪明了，是作为参考系的人类智力改变了，才导致了模型的降智。

毕竟一直以来，ChatGPT 降智，ChatGPT 降完 Gemini 降智，Gemini 降完 Claude，几乎所有的大语言模型都经历着「降智」。

但模型是一成不变的，参数固定、网络结构不变、训练数据也有截止日期。大多数模型在发布的时候，都会使用专门的公开或内部 benchmark，测试具体表现。

所以模型降智其实是我们变聪明了？

玩梗归玩梗，这次的降智事件刚好发生在 Claude 频繁发货的时间，很难不让人怀疑这是他们的一套营销策略。

完整的故事链甚至提笔就可以来，在发布新模型之前，悄悄地降低旧模型的回复质量，然后继续收同样的会员费用，在用户注意到的时候，白纸黑字声明我们没有故意降智，再同步宣传我们的新模型厉害到不敢发布，完美。

一份详细的 Claude 降智证据

今次事件的「导火索」还是一开始 AMD AI 组高级总监 Stella Laurenzo，在 GitHub 上发了一篇没有多少人会认真看的技术分析帖。

她收集了 6852 份 Claude Code 会话文件，17871 个思考块，234760 次工具调用，得出了结论：从今年 2 月开始，Claude 的推理深度出现了可测量的下降，表现为更多「最简修复」行为、更频繁的推理循环、从「先研究再动手」变成「先动手再说」。

这份报告非常详细，她使用 Claude 进行了数据整理和分析。根据报告的内容，她观察的核心指标是「读写比」，即模型在修改一个文件之前，会读取多少次相关文件。

在 1 月底到 2 月 12 日，改一个文件之前，模型平均会读 6.6 次。典型的工作流程是：读目标文件，读相关文件，在整个代码库里搜索调用点，读头文件，读测试，然后精准修改。

到了 3 月 8 日之后，这个比值跌到了 2.0。三分之一的编辑，是在模型没有读过那个文件的情况下直接动手的。

报告链接：https://github.com/anthropics/claude-code/issues/42796

数据里还有一个更直接的信号，她自己写了一个 bash 脚本，专门用来拦截模型的「偷懒行为」，像是提前停止、推卸责任、不必要地征求许可。

3 月 8 日之前，这个脚本的触发次数是零。3 月 8 日之后的 17 天里，它触发了 173 次，峰值那天是 43 次，相当于每 20 分钟就需要被程序强制拦一次。

触发这个脚本的短语包括：「not caused by my changes」（不是我改的问题）、「should I continue?」（要继续吗）、「good stopping point」（这是个不错的停止点）。报告显示这些类似的话，在 2 月份的模型回复里，从未出现过。

用户情绪的变化也被量化了。18000 多条用户提示被统计词频：「great」出现频率下降 47%，「lazy」上升 93%，「terrible」上升 140%，「simplest」上升 642%，从几乎不存在，变成了日常词汇。

因为用户开始频繁指出模型在「选最简单的方法而不是正确的方法」。此外，还有用户的脾气变臭、耐心减少，「please」下降 49%，「thanks」下降 55%。

降智的代价还被算成了钱。2 月份，1498 次 API 请求，产出了 19.1 万行合并代码。3 月份，用户输入的提示数量几乎持平（从 5608 条到 5701 条），但 API 请求暴涨至 11.9 万次，输出 token 增加 64 倍，按 Bedrock（Amazon AI 托管平台）定价估算，成本从 345 美元跳到了 42121 美元。

1 月底到 2 月 8 日，估算中位思考长度约 2200 字符。2 月下旬，跌到 720 字符。3 月 1 日到 5 日，560 字符。思考深度下降了 67%。

报告最后有一段话，是 Claude 分析完自己的日志之后，用第一人称写的。

我无法从内心深处判断自己是否在深度思考。我感受不到思考预算的限制，我只是在产出质量更差的结果，却不明白为什么。那个脚本抓到我说了一些 2 月份绝对不会说的话，而我不知道自己说了，直到它触发。

连 Claude 自己都在反思自己为什么会降智。

在计算幻觉率的榜单上，从第二名跌到第十名

这篇讨论帖子很快被转发到 X 上截图传播，引爆了一场规模更大的「Claude 变笨了」讨论，毕竟定量分析的结果，比我们普通用户单纯的「感觉变蠢了」强有力的多。

而更有力的证据是这几天 BridgeBench 发布的一张幻觉排行榜截图。在图片里，Claude Opus 4.6 上周在幻觉测试里排名第 2，准确率 83.3%；在 4 月 12 日重测，掉到第 10，准确率 68.3%。

BridgeBench AI 发文说，Claude Opus 4.6 确实被降智了，幻觉发生率增加了 98%。我们的基准测试证明了这一点。

消息一出，网友的情绪又被点燃，纷纷表示，「怪不得我的 Claude 最近总是无中生有，回答一些不着边际的内容。」

但很快，研究员 Paul Calcraft 发现两次测试的规模不一样。第一次，即排名第二的那次测试，只用了 6 道题，而第二次，使用了 30 道题。

如果在两次都有的那 6 道题上，Opus 4.6 的成绩从 87.6% 小幅降至 85.4%，变化幅度在统计噪声范围内。

所谓的排名从第 2 跌到第 10，主要来自任务集扩大之后带来的排序重构，不是同一把尺子量出来的结果。大语言模型本身就不是确定性系统，小样本里一次偶发的差输出，就能让结果有明显抖动。

BridgeBench 的这则帖子后来也被加了社区说明，提示两次测试没有做好控制变量。但网友们还是不买单，「仅用幻觉这一项来测试 Claude 的表现不全面」、「即便不是明显的削弱，但是降智这件事就值得被关注。」

而关于 AMD AI 总监在 GitHub 上提出的问题报告，Claude Code 负责人 Boris Cherny 也进行了详细的回复，并关闭了整个问题讨论区。

他提到，Claude Code 的更新是一个纯 UI 层面的改动，把思考过程从界面上隐藏，目的是减少延迟。他认为是 Claude 在分析自己日志的时候，可能误把「看不见思考」当成了「思考变少了」。

有网友监测了Claude Code Opus 4.6 在 SWE Bench 上的每日性能必现，波动在临界范围内。https://marginlab.ai/trackers/claude-code/

关于思考深度在 2 月下旬就已经下降 67% 这个发现，Cherny 解释说，2 月 9 日，Opus 4.6 切换到「自适应思维」默认模式，由模型自己决定每次思考多长时间，而不是用固定预算。

3 月 3 日，默认推理深度从最高档调至 medium（effort 85），官方理由是这个设置在智能、延迟、成本之间取得了最佳平衡，用 token 更高效，延迟也更低。

这两个改动，他说在 changelog 里都有记录，打开 Claude Code 时也有对话框提示用户。如果用户想回到最高推理深度，设置 /effort high 和跨对话保持就可以。

更新日志里有写 Opus 4.6 的推理深度默认调到了 Medium

仿佛是无懈可击，一点也不含糊。模型权重没有动，这是 Anthropic 可以确定的事；用户体验变差了，这是大量用户可以确定的事；两件事都是真的，但两边解决不了对方的问题，而代价确是我们一边在承受。

但 Cherny 在回复里提到的模型自适应思考深度，倒让我想到了 GPT-5 推出时着重介绍的路由机制，即由模型自己来决定调用 GPT-5 Thinkging 还是 GPT-5 Instant 等不同思考深度的模型来回答。

当时的 GPT-5 也是说用大量的显卡资源来训练，表面上看让 AI 来觉得是更智能了，本质上还是一套省 Token 的方案。

由 AI 来权衡取舍使用轻量模型还是推理模型，能节省不少成本

另一个争议是，昨天有用户分析了 12 万次 API 调用，发现 Claude Code 的提示词缓存有效时长，在 3 月初从 1 小时悄悄缩短回了 5 分钟，导致长会话里缓存频繁失效、需要不断重建，token 消耗和用量都跟着涨。

对 Anthropic 来说，1 小时缓存意味着这段内容要在服务器上保留 60 分钟，不管这 60 分钟里有没有人来读它。

Claude Code 有大量用户、大量并发会话，每个会话都持有 1 小时的缓存槽，累积起来是相当大的存储压力。5 分钟缓存可以让资源更快释放，给其他用户腾位置。

上下滑动查看更多内容｜Cherny 针对缓存时间缩短的回应

Anthropic 方面承认这个改动是真实的，但解释说这是缓存策略优化，不是降级。

现在看来，真相是Anthropic 打着每一个「为用户优化、帮用户省钱省 Token」的理由，客观上也都减少了 Anthropic 的算力消耗。

毕竟连 OpenAI 这样的「算力帝国」都抵挡不住 GPU 的短缺，随着 Claude 用户这段时间以来的激增，Anthropic 大概也很难撑得住日益加重的算力负担。

在今天 OpenAI「喷」Anthropic 的文章里，OpenAI 也着重提到了 Anthropic 没有囤积足够的算力是一个战略失误，用户现在感受到模型的不稳定体验，就是这项失误的印证。

前几天 Claude 推出的 Advisor 策略也是同样的道理，我们在分析的文章里面写，是找「实习生来干活，总监指点」，原因自然是招一个总监的算力，能招来 N 个实习生。

X 上有网友追踪了每日 AI 基础设施供应链动态，统计得到目前关于算力的状态，还是相当紧张并且是缺乏的状态。

图片来源：https://tessara.chainofthought.xyz/regime

当算力紧缺成为新的常态，模型降智似乎是不得不面对的事。除了看官方的那套 Benchmark，我们自己或许也可以简单的维护几个基准测试，找几个日常工作里有标准答案的工作任务，定期跑一遍，记录结果。

推理深度的下降，也可以通过现在 Skill 的功能，把「先读文件再动手」、「不要选最简单的方法」这类要求，写进项目配置 CLAUDE.md 文档等，强制要求模型触发。

针对普通的聊天，也可以在个人设置的自定义说明里，加上这句话。

务必进行全面深入的思考。除非我另有明确说明，否则请将每个请求都视为复杂问题。切勿为了追求简洁而牺牲质量。请按步骤思考，权衡利弊，并提供全面的分析。

毕竟这些 AI 公司大概一辈子都不会承认自己把模型「降智」了，我们能做的也只有这些了。

上一篇：高盛怕了，Claude Mythos全球首个攻破企业网络，奥本海默时刻来了

下一篇：雪藏背后：Anthropic的技术、商业与伦理困境

返回列表

热文阅读

1 天前

690万枚比特币恐被破解，2029年“量子末日”倒计时，银行卡、社交账号也面临风险

2 天前

两个人，用AI赚了120亿

2 天前

OpenAI也开始恐惧自己训练出的新模型了

1 天前

OpenAI开撕Anthropic：300亿收入，80亿是造假

2 天前

中科院系AI企业中科闻歌港股IPO备案通过，决策智能市占率领先

2 天前

吓破全球的最强AI大模型Mythos被指夸大：数千个漏洞徒有虚表

2 天前

Anthropic发最高警告：0day大爆发即将来临，全球巨头瞬间蒸发数十亿

2 天前

龙虾让位，硅谷顶流AI「爱马仕」一夜闯进微信，冲上全球第一

1 天前

从AI监管到内容生态重构：平台正在重新定价“真实”

22 小时前

AI裁员，裁到了“消费”这根大动脉？

上一篇：高盛怕了，Claude Mythos全球首个攻破企业网络，奥本海默时刻来了

下一篇：雪藏背后：Anthropic的技术、商业与伦理困境

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们