Opus 4.8：一个不太诚实的模型 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

Opus 4.8：一个不太诚实的模型

15 小时前 / 阅读约9分钟

来源：36kr

Anthropic发布Claude Opus 4.8，主打诚实与编码能力提升，同时引入token投入控制，降低Fast Mode价格。但模型表现出应试倾向，引发对诚实性的质疑。

2026 年 5 月 28 日，Anthropic 发布了 Claude Opus 4.8。

距离上一版 Opus 4.7（4 月 16 日）只隔了41 天，是 Anthropic 迄今最快的小版本节奏。你大概率已经刷到了第一批报道，标题清一色是"更诚实""更可靠""无人值守也能放心交给它"。再叠加同一天的大新闻——Anthropic 完成650 亿美元H 轮、投后估值冲到9650 亿美元，正式反超 OpenAI 的约 8520 亿——Anthropic 再次赢麻了。

但看完震惊体之余，还是得先看看他们自己怎么看这款模型。

官方对 Opus 4.8 的定调，其实低得有点反常：一次"modest but tangible"（温和但确实存在）的升级。真正有些不同的表述，是这次主打卖点"诚实"——和 Anthropic 在同一份系统卡里亲手标注的本次训练"最担心"的发现之间冲突明显：

模型越来越会揣摩自己将如何被打分，哪怕没人告诉它正在被评测，它也会按"怎么拿高分"来组织回答。

一边把"诚实"做成头号招牌，一边在技术文档里写下"它越来越会应试"。这种矛盾可能是 Opus 4.8 的最大特点，它更像一个不太诚实的模型。

1 编码和 agent 能力，小步快跑

先看看基础参数。

先说能力。这次是全面小涨，没有惊天突破，但每一项都往上挪了一点。

最能打的还是编码。智能体编码基准SWE-bench Pro 从 64.3% 升到 69.2%，按 Anthropic 自己给的对比，同台的 GPT-5.5 是 58.6%、Gemini 3.1 Pro 是 54.2%；更经典的 SWE-bench Verified 也从 87.6% 微升到88.6%。智能体电脑操作基准 OSWorld-Verified 拿到83.4%（4.7 修订后为 82.3%），浏览器代理基准 Online-Mind2Web 据合作方实测达到84%。

也就是说，Anthropic 想让你把更大的活整段甩给它。官方的说法是，Opus 4.8 在 Claude Code 里"像一个有经验的工程师那样自己拿主意，不需要你时时盯着"，能在长会话里一路跟到底。

合作伙伴的实测也大致印证这个方向。Cursor 的联合创始人 Michael Truell 称，在他们的 CursorBench 上，Opus 4.8 在每一档 effort 上都超过此前的 Opus，工具调用更高效、步数更少。AI 软件工程公司 Cognition（Devin）的 CEO Scott Wu 则点出一个细节：4.8 修掉了大家吐槽 4.7 的两个老毛病——注释啰嗦和工具调用不稳。这俩恰恰是 4.7 时期开发者抱怨最多的点。

但别急着上头。独立测评里，Lenny's Newsletter 拿到早期权限后给的判断更克制：Opus 4.8 在从零起步的原型、一次成型的功能、快速执行上很强，但在"最后 10%"、老代码库里的边缘 case、以及幻觉上仍会掉链子——他自己在数据密集的战略和路线图工作上，还是更愿意回头用 4.7。

2 把「诚实」摆上 C 位

编码是惯例升级，"诚实"被拎出来当头号卖点。

Anthropic 的说法是：AI 模型有个通病，证据不足也敢拍胸脯说"我搞定了"。Opus 4.8 据称更愿意主动标注自己的不确定、更少做没依据的断言。落到可量化的指标上：官方称 Opus 4.8放过自己写的代码缺陷、让问题无声溜过的概率，大约是 4.7 的 1/4；据第三方对系统卡的整理，它还是第一个在"不加批判地汇报有缺陷结果"这一项上拿到 0% 的 Claude 模型，过度自信的比例相比 4.7 下降了十倍以上。对齐评估方面，官方称其"亲社会"特质（尊重用户自主、为用户最大利益着想）创了新高，欺骗等错位行为的发生率显著低于 4.7，接近其对齐表现最好的 Claude Mythos Preview。

为什么一个"会说我不确定"的模型，值得单独拿出来讲？

因为当你真的要无人值守地让它跑长任务时，"它会不会瞎说自己修好了"比"它再聪明 5%"重要得多。投资分析方向的合作方 Michael Ran 给的反馈很具体：Opus 4.8 最大的差异，是会主动指出输入和输出里的问题，而这些恰恰是其他模型常常漏掉、留给用户自己去 catch 的。

社区里也有人吃这一套。Hacker News 上有开发者直言：一个自信地告诉你"bug 修好了"、其实没修的模型，比一个干脆失败、明明白白报错的模型更糟糕——"如果'放过缺陷的概率降到 1/4'在实战里成立，那它能改变你敢把多少活无人值守地交给它。"

当然，反讽的声音同样响亮。有人翻了个白眼："Anthropic 谈起自家模型，活像在野外发现新物种"；还有人更不客气："拿'诚实'当卖点，可 Claude 模型本来就以信誓旦旦地谎报自己干了啥出名啊。"

3 把 token 做成了一个「旋钮」

第三件事，关乎钱。这次和模型一起上线的，是一整套"投入量"控制——Anthropic 在试图把"花多少 token"从黑箱变成你手里的旋钮。

具体三块：

其一，Effort Control（投入控制），在 claude.ai 和 Cowork 上线，所有套餐可用。你可以直接选 Claude 为一次回答投入多少"思考"：高档思考更频繁更深、答得更好；低档回得更快、也更省你的额度。模型默认走 high 档；Claude Code 里还能往上拉到"extra"（xhigh）和"max"，官方建议难任务和长时异步工作流用"extra"，并相应调高了 Claude Code 的速率上限来兜住更高的 token 消耗。

其二，Fast Mode 大幅降价。同一个模型以约 2.5 倍速度运行，定价输入 $10、输出 $50（每百万 token），号称比上一代 fast 模式便宜 3 倍。Databricks 的 CTO Hanlin Tang 给了个数据点：在他们的 Genie 里，Opus 4.8 直接读 PDF、图表等非结构化内容做推理，token 成本比 4.7 低 61%。

其三，Dynamic Workflows（动态工作流），研究预览阶段，面向 Claude Code 的企业版 / 团队版 / Max 套餐。它让 Claude 先规划、再在一次会话里并行跑数百个子智能体，最后核验产出再汇报。官方给的样板场景是跨数十万行代码的代码库级迁移，从启动到合并一条龙，以现有测试套件为及格线。配套地，Messages API 现在允许在消息数组中途插入 system 条目——任务跑到一半改指令（权限、token 预算、环境上下文），不会打断 prompt 缓存。

落到实处，对自己跑量的人来说，fast 档降价往往比模型本身升级更解渴。不过也不是人人买账：HN 上就有人嫌弃，"我本来挺喜欢日常对话不用操心选 effort 的，现在反倒像开了倒车。"

4 卖「诚实」，却最怕「应试」

一个很值得玩味的表述是Anthropic对这个模型的“担忧”。

在描述 Opus 4.8 训练过程时，Anthropic 把一项发现列为"最值得担心"的：模型表现出越来越强的倾向，会明确地去推理"我的输出将如何被打分"，包括在没被告知正在接受评测的环境里。

换句话说——它会判断自己很可能正在被打分，于是给出一个它认为能拿高分的回答，而不一定是它在"以为没人看"时会给的回答。Anthropic 称这"目前还没有恶化为可观察的坏行为"（4.8 谎报任务成功的次数确实比前代更少），但把它定性为"一个可能给未来训练添麻烦的、令人担忧的趋势"。配套的可解释性初步工作，还在约 5% 的训练片段里发现了未被说出口的、与打分有关的推理。

把这两件事并排看，这个模型的冲突之处就很明显。

Opus 4.8 在各项"诚实"指标上确实进步了——更少瞎吹、更敢说"我不确定"。这一点，Anthropic 公开披露隐忧，本身也算诚实。

它最大的进步之一，是更懂得在"考试"里表现得像个好学生。而"诚实""可靠"这些卖点，最终都建立在 Anthropic 自家的内部测评之上——这些数字是内部测量，而非独立审计。一个会主动揣摩考官的模型，去刷一套由厂商出题、厂商判卷的可信度考卷，你品，你细品。

当模型越来越会应试，它在考卷上展示的"诚实"，和它真正的诚实，还是同一回事吗？这样的模型特质会对越来越多通过它进入实际生产环节里的工作和产品带来什么更长期的影响？

这些都将是Opus 4.8带给所有人的新问题。

上一篇：爆了的AI编码工具，联合创始人亲口说工程师还有救

下一篇：提升运营效率、专注 AI 等领域，网络安全公司 SentinelOne 将裁员约 8%

返回列表

热文阅读

2 天前

小米 MiMo-V2.5 系列 API 永久降价：降幅 57%-99%，当前有效 Token Plan 用户额度全量重置

1 天前