Claude越更越废？AMD AI负责人甩出23万次调用记录：已“变蠢+摆烂”，复杂工程根本干不了 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

Claude越更越废？AMD AI负责人甩出23万次调用记录：已“变蠢+摆烂”，复杂工程根本干不了

7 小时前 / 阅读约12分钟

来源：36kr

AMD人工智能部门负责人Stella Laurenzo吐槽Claude Code越更新越差，不仅“变蠢”还偷懒摆烂。她通过数万条实际使用数据深度分析，指出Claude Code在复杂工程任务中质量退化，引发网友热议。

近日，曾被视为最强 AI 编码工具之一的 Claude Code，遭遇了前所未有的信任危机。带头提出质疑的，是 AMD 人工智能部门的负责人——她直言吐槽 Claude Code 越更新越差，不仅“变蠢”，还学会了偷懒摆烂。

不仅如此，她更拿出了数万条实际使用数据进行深度分析，实锤了这一说法。

一则 GitHub issue，引全网热议

这场争议的导火索，源于 4 月 2 日一名昵称为 stellaraccident 的用户，在 Claude Code 的 GitHub 项目页面上提交的一个问题反馈（Issue）。

她没绕任何弯子，直接在 issue 标题中就带着不满：“2 月份的更新导致 Claude Code 无法用于复杂的工程任务”。

根据该用户的 GitHub 个人资料和相关 Linkedln 帖子显示，这位发帖人正是芯片制造商 AMD 人工智能部门主管 Stella Laurenzo。

她明确列出了更新后 Claude Code 的四大问题，堪称“四宗罪”：

无视指令

声称“最简单的修复方案”，但其实是错误的

执行与要求相反的操作

在未按要求完成的情况下声称已完成

为了证明自己并非随口吐槽，Stella Laurenzo 还拿出了团队几个月的使用日志，里面详细记录了 6852 次会话，这些会话包含了 234760 次工具调用和 17871 个思维块。

所有数据都指向一个结论：2 月份之后的 Claude Code，就是在摆烂，稍微复杂一点的工程活，根本信不过。

Claude Code 到底摆烂成什么样？

通过对会话文件的量化分析，Stella Laurenzo 指出：思考内容脱敏功能（redact-thinking-2026-02-12）的上线，与复杂长会话工程工作流的质量退化，有着精准的对应关系。

数据显示，扩展思考 token 并非“锦上添花”，而是模型执行多步骤研究、遵守规范、精细修改代码的核心必要条件。

一旦思考深度降低，模型的工具使用模式就会从“先研究后修改”，明显转变为“直接修改”，这也直接引发了用户反馈的各类质量问题。

Stella Laurenzo 以及其团队基于以下几个维度剖析了 Claude Code 这几个月间的变化：

思考内容隐藏时间线与质量回退相吻合

从会话 JSONL 文件中对思考块的分析结果来看，变化更为直观：

调查报告显示，质量退化问题于 3 月 8 日被独立上报，而这一天，恰好是脱敏思考块占比突破 50% 的日子。据悉，脱敏功能是分阶段部署的，从 1.5% 逐步提升至 25%、58.4%，最终在一周内达到 100%。

脱敏前思考深度已大幅下降

1 月份时，Claude Code 每次思考的内容大约有 2200 个字符，能看出是在认真琢磨问题。可到了 2 月底，思考字符数直接暴跌至 720 个，相当于减少了三分之二的思考量，思考深度下降了 67%。

除了思考偷懒，Stella Laurenzo 和 AMD 团队还检测了 Claude Code 的多项质量指标。

在思考分析完成前，他们已基于 18000 + 用户提示词独立计算以下指标：

此外，他们也编写了 stop-phrase-guard.sh 停止钩子，用于自动检测推诿、提前停止、请求许可等敷衍行为。

结果显示，3 月 8 日后的 17 天内，这个钩子被触发了 173 次，而在此之前，从未被触发过。

另外，Claude Code 的工作态度也发生了彻底转变，最核心的变化就是修改代码的逻辑：以前它会先认真阅读相关文件，再动手修改，但对 234760 次工具调用的分析显示，现在的它，已经不再先阅读代码再修改了。

调查数据清晰地呈现了这一退化：1 月份时，Claude Code 改一次代码平均要读取 6.6 次文件，生怕出现错误。这算是它的“良好期”，会先读取目标文件、关联文件，全局检索用法，查看头文件与测试用例，再进行精准修改。

可到了 3 月底，它平均只读 2 次文件就敢直接动手修改，降幅超过 70%。这样一来，问题自然层出不穷：仅读取当前文件就直接修改，常常忽略上下文，进而出现乱插代码、破坏原有注释、重复编写逻辑等问题，写出来的代码 Bug 满天飞。

很多程序员反馈，后续修改这些 Bug 的时间，比自己重新写一段代码还要久。

除此之外，Claude Code 全新写入的占比翻倍，模型更倾向于重写整个文件，而非精准修改。这样做虽然速度更快，但会丢失精度与上下文感知，反而得不偿失。

Stella Laurenzo 还进一部分分析了受影响的工作流，主要包括：

50 + 并发代理会话执行系统编程（C、MLIR、GPU 驱动）
30 分钟以上自主运行，执行复杂多文件修改
严格的项目规范（5000 + 字 CLAUDE.md 文档）
代码评审、工单管理、迭代调试
良好期单周末合并 19.1 万行代码
其指出，扩展思考是模型实现以下能力的核心机制：
行动前规划多步骤方案（读取文件、执行顺序）
recalling 并遵循项目规范
输出前自我检查错误
判断任务是否完成、会话是否继续
数百次工具调用中保持逻辑连贯

而当思考深度不足时，模型就会选择最省力的操作：不读取文件直接修改、未完成任务就停止、推诿责任、用最简单的方案替代正确方案。

从 2 月到 3 月，Claude Code API 请求量直接暴涨了 80 倍，输出的 token 也增加了 64 倍。据估算，每月的使用成本从几百美元，直接飙升到 4 万多美元。本来想省单次思考的算力，结果因为 Claude Code 反复改错、需要不断重试，反而让整体成本直接失控，简直是赔本赚吆喝。

诉求：虽然我已换了其他大模型，但还是希望 Anthropic 能修复产品

面对这样的结果，Stella Laurenzo 表示，这不是她一个人遇到的问题，而且情况已经严重到无法在工作环境中继续使用 Claude Code 的地步。

她说道：“我们的工作环境复杂度高且稳定，通过挖掘数月日志，我们明确了问题的根源——自 2026 年 2 月起，Claude 已无法可靠完成复杂工程任务。团队所有资深工程师均反馈了类似问题，其中一位工程师拥有可复现的测试流程，我们基于其日志开展实验与数据分析，且已尝试所有公开的变通方案。”

在 Stella 看来，自己发布这份反馈，并不是为了抹黑 Anthropic，而是真心希望他们能重视这个问题，拯救 Claude Code 这个曾经的好产品。“我们已切换至其他服务商，其服务质量更优，但 Claude 曾为我们提供良好支持，因此提交此问题，希望 Anthropic 能修复产品。”

对此，其提出了四个建议：

关于思考资源分配的透明度：如果思考 token 被减少或设上限，依赖深度推理的用户需要知情。目前的 redact-thinking header 让外部无法验证这一点。

“最大思考”等级：执行复杂工程工作流的用户愿意为保证深度推理付出更高费用。目前的订阅模式没有区分需要每次 200 个思考 token 的用户和需要 20,000 个的用户。

API 响应中的思考 token 指标：即使思考内容被隐藏，如果在使用情况响应中暴露 thinking_tokens，用户仍可监控自己的请求是否获得了所需的推理深度。

高阶用户的金丝雀指标：停止钩子违规率（从 0 → 每天 10 次）是一个可机器读取的信号，可以在整个用户群体中监控，作为质量回退的领先指标。

网友吐槽：从“封神”到“劝退”，落差太大

不光 AMD 这位高管，全网的程序员们看到这份反馈后，像是找到了组织，评论区里一片哀嚎。

有人表示，这段时间一直怀疑是自己技术下滑了，写代码总被 Claude Code 带偏，直到看到这份反馈才知道，原来大家都有一样的困扰。

作为 Claude 曾经的忠实用户，程序员 bbecausereasonss 在 Reddit 上发帖称：“我已经无法再心安理得地向客户推荐 Claude Code 了。”

他表示：“我是 MAX 用户。刚开始使用 Claude Code 时，我真的被震撼到了。自 2022 年以来我一直在用 AI 做开发，这一次确实让我感觉像是一个重要的历史时刻。我曾经把 Claude Code 推荐进客户的项目和开发流程中，在社交媒体上大力称赞它，也在私下里不断安利给身边的人。”

但他话锋一转，吐槽当前版本的模型状态：“懒惰、无知、能力退化且视野狭隘，在还没有真正理解整体问题和各种边界情况之前，就盲目开始‘修复’——而且大多数补丁反而把事情搞得更糟。我已经无法再负责任地继续推荐它了，因为这只会让我看起来像个傻子，或者在胡说八道，甚至两者兼具。”

他还直言：“Claude Opus 在过去几周简直是一场灾难——甚至还没提到使用额度的问题。一个很贴切的比喻是，它像是被‘做了脑叶切除手术’，智商从 135–150 直接掉到 90–100，感觉退化成了 Sonnet 3.5。真的很失望。”

还有人追问 Stella Laurenzo 究竟在用什么模型替代 Claude Code：

“Claude 已经退化到无法被信任去完成复杂工程任务的地步。”

差不多，但我觉得更准确的说法是：Claude 已经退化到连任何工程任务都不值得信任的程度了。

它从来没有一次就把事情做对过，写出来的代码充满 bug 和重复逻辑，而且必须全程盯着，否则它一定会把东西搞坏。

它已经变成了另一个 AI“玩具”。挺可惜的。

能否分享一下你在用的“其他工具”？我也想试试。

不过，Stella Laurenzo 并没有指出自己用的是哪款模型替代。而是补充说道：「在 6 个月前，Claude 在推理质量和执行能力上几乎是独一档的。但现在，其他竞品也需要被非常认真地重新评估。就能力层级而言，Anthropic 早已不再是唯一一个处在 Claude Opus 曾经所在水平的玩家。」

现在网友们的呼声其实很一致：对于 AI 编程助手，可以接受它慢一点，但绝对不能接受它变蠢、变懒，更不能接受它敷衍了事。毕竟大家用 AI 编程助手，不是想要一个“快但错”的打字机，而是想要一个能一起思考、能扛事的队友，要是连最基本的思考都没了，那这个工具，也就失去了它存在的意义。

对此，你在使用 Claude Code 有什么样的感受？

参考：

https://github.com/anthropics/claude-code/issues/42796

https://github.com/stellaraccident

https://www.theregister.com/2026/04/06/anthropic_claude_code_dumber_lazier_amd_ai_director/

上一篇：Anthropic封杀48小时，逼出OpenClaw最强反击，龙虾首次会生视频了

下一篇：省token神器3天狂揽4.1k星，19岁小哥开发，信息无损最高省87%

返回列表

热文阅读

2 天前

同事被“炼化”为Skill？大家把这事想简单了