Claude越更越废?AMD AI负责人甩出23万次调用记录:已“变蠢+摆烂”,复杂工程根本干不了
7 小时前 / 阅读约12分钟
来源:36kr
AMD人工智能部门负责人Stella Laurenzo吐槽Claude Code越更新越差,不仅“变蠢”还偷懒摆烂。她通过数万条实际使用数据深度分析,指出Claude Code在复杂工程任务中质量退化,引发网友热议。

近日,曾被视为最强 AI 编码工具之一的 Claude Code,遭遇了前所未有的信任危机。带头提出质疑的,是 AMD 人工智能部门的负责人——她直言吐槽 Claude Code 越更新越差,不仅“变蠢”,还学会了偷懒摆烂。

不仅如此,她更拿出了数万条实际使用数据进行深度分析,实锤了这一说法。

一则 GitHub issue,引全网热议

这场争议的导火索,源于 4 月 2 日一名昵称为 stellaraccident 的用户,在 Claude Code 的 GitHub 项目页面上提交的一个问题反馈(Issue)。

她没绕任何弯子,直接在 issue 标题中就带着不满:“2 月份的更新导致 Claude Code 无法用于复杂的工程任务”。

根据该用户的 GitHub 个人资料和相关 Linkedln 帖子显示,这位发帖人正是芯片制造商 AMD 人工智能部门主管 Stella Laurenzo。

她明确列出了更新后 Claude Code 的四大问题,堪称“四宗罪”:

无视指令

声称“最简单的修复方案”,但其实是错误的

执行与要求相反的操作

在未按要求完成的情况下声称已完成

为了证明自己并非随口吐槽,Stella Laurenzo 还拿出了团队几个月的使用日志,里面详细记录了 6852 次会话,这些会话包含了 234760 次工具调用和 17871 个思维块。

所有数据都指向一个结论:2 月份之后的 Claude Code,就是在摆烂,稍微复杂一点的工程活,根本信不过。

Claude Code 到底摆烂成什么样?

通过对会话文件的量化分析,Stella Laurenzo 指出:思考内容脱敏功能(redact-thinking-2026-02-12)的上线,与复杂长会话工程工作流的质量退化,有着精准的对应关系。

数据显示,扩展思考 token 并非“锦上添花”,而是模型执行多步骤研究、遵守规范、精细修改代码的核心必要条件。

一旦思考深度降低,模型的工具使用模式就会从“先研究后修改”,明显转变为“直接修改”,这也直接引发了用户反馈的各类质量问题。

Stella Laurenzo 以及其团队基于以下几个维度剖析了 Claude Code 这几个月间的变化:

思考内容隐藏时间线与质量回退相吻合

从会话 JSONL 文件中对思考块的分析结果来看,变化更为直观:

调查报告显示,质量退化问题于 3 月 8 日被独立上报,而这一天,恰好是脱敏思考块占比突破 50% 的日子。据悉,脱敏功能是分阶段部署的,从 1.5% 逐步提升至 25%、58.4%,最终在一周内达到 100%。

脱敏前思考深度已大幅下降

1 月份时,Claude Code 每次思考的内容大约有 2200 个字符,能看出是在认真琢磨问题。可到了 2 月底,思考字符数直接暴跌至 720 个,相当于减少了三分之二的思考量,思考深度下降了 67%。

除了思考偷懒,Stella Laurenzo 和 AMD 团队还检测了 Claude Code 的多项质量指标。

在思考分析完成前,他们已基于 18000 + 用户提示词独立计算以下指标:

此外,他们也编写了 stop-phrase-guard.sh 停止钩子,用于自动检测推诿、提前停止、请求许可等敷衍行为。

结果显示,3 月 8 日后的 17 天内,这个钩子被触发了 173 次,而在此之前,从未被触发过。

另外,Claude Code 的工作态度也发生了彻底转变,最核心的变化就是修改代码的逻辑:以前它会先认真阅读相关文件,再动手修改,但对 234760 次工具调用的分析显示,现在的它,已经不再先阅读代码再修改了。

调查数据清晰地呈现了这一退化:1 月份时,Claude Code 改一次代码平均要读取 6.6 次文件,生怕出现错误。这算是它的“良好期”,会先读取目标文件、关联文件,全局检索用法,查看头文件与测试用例,再进行精准修改。

可到了 3 月底,它平均只读 2 次文件就敢直接动手修改,降幅超过 70%。这样一来,问题自然层出不穷:仅读取当前文件就直接修改,常常忽略上下文,进而出现乱插代码、破坏原有注释、重复编写逻辑等问题,写出来的代码 Bug 满天飞。

很多程序员反馈,后续修改这些 Bug 的时间,比自己重新写一段代码还要久。

除此之外,Claude Code 全新写入的占比翻倍,模型更倾向于重写整个文件,而非精准修改。这样做虽然速度更快,但会丢失精度与上下文感知,反而得不偿失。

Stella Laurenzo 还进一部分分析了受影响的工作流,主要包括:

  • 50 + 并发代理会话执行系统编程(C、MLIR、GPU 驱动)
  • 30 分钟以上自主运行,执行复杂多文件修改
  • 严格的项目规范(5000 + 字 CLAUDE.md 文档)
  • 代码评审、工单管理、迭代调试
  • 良好期单周末合并 19.1 万行代码
  • 其指出,扩展思考是模型实现以下能力的核心机制:
  • 行动前规划多步骤方案(读取文件、执行顺序)
  • recalling 并遵循项目规范
  • 输出前自我检查错误
  • 判断任务是否完成、会话是否继续
  • 数百次工具调用中保持逻辑连贯

而当思考深度不足时,模型就会选择最省力的操作:不读取文件直接修改、未完成任务就停止、推诿责任、用最简单的方案替代正确方案。

从 2 月到 3 月,Claude Code API 请求量直接暴涨了 80 倍,输出的 token 也增加了 64 倍。据估算,每月的使用成本从几百美元,直接飙升到 4 万多美元。本来想省单次思考的算力,结果因为 Claude Code 反复改错、需要不断重试,反而让整体成本直接失控,简直是赔本赚吆喝。

诉求:虽然我已换了其他大模型,但还是希望 Anthropic 能修复产品

面对这样的结果,Stella Laurenzo 表示,这不是她一个人遇到的问题,而且情况已经严重到无法在工作环境中继续使用 Claude Code 的地步。

她说道:“我们的工作环境复杂度高且稳定,通过挖掘数月日志,我们明确了问题的根源——自 2026 年 2 月起,Claude 已无法可靠完成复杂工程任务。团队所有资深工程师均反馈了类似问题,其中一位工程师拥有可复现的测试流程,我们基于其日志开展实验与数据分析,且已尝试所有公开的变通方案。”

在 Stella 看来,自己发布这份反馈,并不是为了抹黑 Anthropic,而是真心希望他们能重视这个问题,拯救 Claude Code 这个曾经的好产品。“我们已切换至其他服务商,其服务质量更优,但 Claude 曾为我们提供良好支持,因此提交此问题,希望 Anthropic 能修复产品。

对此,其提出了四个建议:

关于思考资源分配的透明度:如果思考 token 被减少或设上限,依赖深度推理的用户需要知情。目前的 redact-thinking header 让外部无法验证这一点。

“最大思考”等级:执行复杂工程工作流的用户愿意为保证深度推理付出更高费用。目前的订阅模式没有区分需要每次 200 个思考 token 的用户和需要 20,000 个的用户。

API 响应中的思考 token 指标:即使思考内容被隐藏,如果在使用情况响应中暴露 thinking_tokens,用户仍可监控自己的请求是否获得了所需的推理深度。

高阶用户的金丝雀指标:停止钩子违规率(从 0 → 每天 10 次)是一个可机器读取的信号,可以在整个用户群体中监控,作为质量回退的领先指标。

网友吐槽:从“封神”到“劝退”,落差太大

不光 AMD 这位高管,全网的程序员们看到这份反馈后,像是找到了组织,评论区里一片哀嚎。

有人表示,这段时间一直怀疑是自己技术下滑了,写代码总被 Claude Code 带偏,直到看到这份反馈才知道,原来大家都有一样的困扰。

作为 Claude 曾经的忠实用户,程序员 bbecausereasonss 在 Reddit 上发帖称:“我已经无法再心安理得地向客户推荐 Claude Code 了。”

他表示:“我是 MAX 用户。刚开始使用 Claude Code 时,我真的被震撼到了。自 2022 年以来我一直在用 AI 做开发,这一次确实让我感觉像是一个重要的历史时刻。我曾经把 Claude Code 推荐进客户的项目和开发流程中,在社交媒体上大力称赞它,也在私下里不断安利给身边的人。”

但他话锋一转,吐槽当前版本的模型状态:“懒惰、无知、能力退化且视野狭隘,在还没有真正理解整体问题和各种边界情况之前,就盲目开始‘修复’——而且大多数补丁反而把事情搞得更糟。我已经无法再负责任地继续推荐它了,因为这只会让我看起来像个傻子,或者在胡说八道,甚至两者兼具。”

他还直言:“Claude Opus 在过去几周简直是一场灾难——甚至还没提到使用额度的问题。一个很贴切的比喻是,它像是被‘做了脑叶切除手术’,智商从 135–150 直接掉到 90–100,感觉退化成了 Sonnet 3.5。真的很失望。”

还有人追问 Stella Laurenzo 究竟在用什么模型替代 Claude Code:

“Claude 已经退化到无法被信任去完成复杂工程任务的地步。”

差不多,但我觉得更准确的说法是:Claude 已经退化到连任何工程任务都不值得信任的程度了。

它从来没有一次就把事情做对过,写出来的代码充满 bug 和重复逻辑,而且必须全程盯着,否则它一定会把东西搞坏。

它已经变成了另一个 AI“玩具”。挺可惜的。

能否分享一下你在用的“其他工具”?我也想试试。

不过,Stella Laurenzo 并没有指出自己用的是哪款模型替代。而是补充说道:「在 6 个月前,Claude 在推理质量和执行能力上几乎是独一档的。但现在,其他竞品也需要被非常认真地重新评估。就能力层级而言,Anthropic 早已不再是唯一一个处在 Claude Opus 曾经所在水平的玩家。

现在网友们的呼声其实很一致:对于 AI 编程助手,可以接受它慢一点,但绝对不能接受它变蠢、变懒,更不能接受它敷衍了事。毕竟大家用 AI 编程助手,不是想要一个“快但错”的打字机,而是想要一个能一起思考、能扛事的队友,要是连最基本的思考都没了,那这个工具,也就失去了它存在的意义。

对此,你在使用 Claude Code 有什么样的感受?

参考:

https://github.com/anthropics/claude-code/issues/42796

https://github.com/stellaraccident

https://www.theregister.com/2026/04/06/anthropic_claude_code_dumber_lazier_amd_ai_director/