今年2月,Anthropic发布了Claude Opus 4.6,该模型凭借强大的推理能力和对复杂代码的精准执行,被业界誉为最强编程AI。然而,发布仅数周后,许多用户就在社交媒体上表达不满,称其性能显著下降,输出变浅、急于给出结果,甚至在简单任务中多次失败。AMD高级AI总监Stella Laurenzo通过分析6852次会话日志,发现Claude Opus 4.6的中位思考长度从2200字符暴跌至600字符,代码阅读与修改比例从6.6:1降至2:1,错误导致API重试暴增80倍。Anthropic官方回应称,这是为了提升延迟和token效率,将默认推理等级从“高”调整为“中”,并非恶意降智。但用户数据表明,在复杂工程场景下,模型严重低估任务复杂度,导致浅层推理,用户成本上升但质量下滑。
