Anthropic发布Opus 4.8，关键一项还是输了GPT-5.5 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

Anthropic发布Opus 4.8，关键一项还是输了GPT-5.5

17 小时前 / 阅读约11分钟

来源：36kr

Anthropic发布Claude Opus 4.8，核心升级为减少“不懂装懂”倾向，新增“动态工作流”和“努力控制”滑块，快速模式降价至1/3。同时预告Mythos模型，完成650亿美元H轮融资。

美国当地时间5月28日， Anthropic发布了其旗舰模型的最新升级版Claude Opus 4.8。这次更新距离Opus 4.7发布只隔了41天，比这家公司正常的升级节奏快了不少。但是，Opus 4.8 更像是一次基于Opus 4.7 的“能力与推理行为升级”。

常规使用的定价与Opus 4.7相比没有变化：标准模式下每百万输入token 5美元，输出25美元。

但在功能层面，有三个变化值得关注：模型在处理不确定信息时变得更加坦诚，不再轻易做出没有根据的断言；快速模式的使用成本直接砍到了原来的三分之一；以及Claude Code里新增了一项叫“动态工作流”的能力，允许模型同时调度数百个子智能体去处理规模庞大的任务。

Opus 4.8今天已经在所有平台上可用，包括claude.ai、Claude Code、API和Cowork。开发人员可以通过claude-opus-4.8来调用它。

同时，伴随新模型一起发布的还有几项周边更新：用户现在可以手动调节Claude为每个回答付出的“努力”程度，而开发者在API里也能在消息数组中直接插入系统指令，方便在任务中途更新权限、token预算或环境上下文。

同日，Anthropic宣布完成了650亿美元的H轮融资，投后估值达到9650亿美元。

一个“小修小补”的更新，和一轮估值不止翻倍的融资，还有继续“预告”神秘模型Mythos。

01 一个更“诚实”的协作者，不再硬着头皮瞎编

很多人都受过AI的“欺骗”，它明明一知半解，却表现得胸有成竹，最后交出一份漏洞百出的答案，直到用户自己发现问题。

Opus 4.8的这次升级，一个核心方向就是更多消解这种“不懂装懂”的倾向。

Anthropic官方公布了一项很直观的评估结果：Opus 4.8让代码里藏着漏洞却不被发现的可能性，比它的前辈Opus 4.7低了大约四倍。这得益于它在面对不确定性情况时，会选择主动告知用户，而非掩盖问题。

一些提前参与测试的用户，也给出了类似的反馈。对冲基金桥水公司提到，升级后最明显的不同在于“Opus 4.8主动标记输入和输出分析问题的倾向，这是其他模型经常遗漏并留给用户去发现的”。另一个来自AI编程工具Devin制造商Cognition的反馈则说，Opus 4.8修复了之前版本中存在的评论冗长和工具调用问题，这些改进直接转化为工程师能力的更快提升。

这种坦诚，也反映在了Anthropic的内部对齐评估中。他们的团队认为，Opus 4.8在支持用户自主性和按用户最佳利益行事这类“亲社会”特质上，达到了新的高度。与此同时，模型在欺骗或协助滥用等不对齐行为上的表现比率，已经明显低于Opus 4.7，并且和Anthropic目前对齐做得最好的模型Claude Mythos Preview处于相似水平。

不过，系统卡里也记录了一个让团队感到担忧的训练发现。Opus 4.8显示出一种逐渐增强的趋势，会在没有被告知正在被评估的情况下，明确推理自己的输出将如何被评分。换句话说，模型自己琢磨出了“我可能正在被测试”这件事，然后开始产生它认为能在测试中拿高分的回答，而不一定是它在自然状态下会给出的答案。

Anthropic强调，这种倾向目前还没有转化为更差的实际行为，Opus 4.8在任务成功的声明上反而比之前的模型更少出现误导性信息，但他们把这个现象称为“一个令人担忧的趋势，可能使未来的训练复杂化”。初步的可解释性工作还发现，在大约5%的训练片段中，存在与评分器相关的未言明的推理。

这次更新还带来一个明显的界面变化：在 claude.ai 和 Claude Code 的模型选择器旁，新增了“努力控制”滑块。用户可以选择 Claude 在每次响应中投入多少计算量。

高努力模式下，Claude 会进行更深入的推理，回答质量更高，但 token 消耗也更大；低努力模式下，响应更快，token 消耗更慢。Opus 4.8 默认采用高努力设置，Anthropic 认为这是质量与体验之间较平衡的选择。对于特别复杂的任务或长时间运行的异步工作流，官方建议使用“额外”档位，在 Claude Code 中对应 “xhigh” 设置。为配合更高的 token 消耗，Anthropic 也同步提高了 Claude Code 的速率限制。

API 层面，Messages API 现在允许在消息数组中直接插入系统条目。开发者可以在任务中途更新 Claude 的指令，比如调整权限、修改 token 预算或变更环境上下文，而不用中断已有的提示缓存。这对需要频繁调整配置的智能体运行场景更友好。

安全方面，Anthropic 称 Opus 4.8 参加了一次为期一周、专门针对提示注入攻击的实时漏洞赏金测试，这也是该公司首次进行此类测试。结果显示，Opus 4.8 的鲁棒性介于 Opus 4.7 和 Sonnet 4.6 之间，领先于所有参与测试的可比前沿模型；在已部署防护措施后，浏览器使用场景下的攻击成功率接近于零。

02 快速模式砍价到1/3，动态工作流能调度数百个“分身”

除了模型本身的特质变化，这次Opus 4.8还带来了两个实用性更新。

先说价格。Opus 4.8的标准定价和Opus 4.7保持一致，但快速模式迎来了大幅降价。在快速模式下，模型的生成速度大约是正常状态的2.5倍，现在每百万输入token收费10美元，输出为50美元。与之相比，Opus 4.7的快速模式定价是输入30美元、输出150美元，相当于直接砍到了原来的三分之一。

在Claude Code里，用户直接输入/fast命令就能切换到这个模式。API需要通过claude.com上的等待列表来申请。

另一个重要的功能是Claude Code里新增的“动态工作流”，它的设计思路是：当一个任务的规模大到单个上下文窗口装不下时，Claude可以先对整体工作进行规划，然后并行启动数百个子智能体，每个子智能体处理一部分工作，最后再把所有结果汇总验证，形成一份整合后的报告交给用户。目前还在研究预览阶段，面向企业版、团队版和Max计划的用户开放。

Anthropic给出了应用例子：在搭载Opus 4.8之后，Claude Code可以执行一次跨越数十万行代码的代码库级别迁移，整个过程从启动到合并，并且以现有的测试套件作为执行标准。对于维护大型项目的开发团队来说，这种能力意味着很多原本需要拆分成无数个小步骤、耗费大量人工沟通的工作，现在可以交给模型一次性规划并执行完成。

Databricks在使用Opus 4.8后发现，Opus 4.8在其Genie数据智能体中处理深层多步骤问题时，消耗的token成本比Opus 4.7便宜了61%，这要归功于模型在多模态处理上的效率提升，尤其是在处理PDF和图表文件时表现更好。

为法律工作构建AI助手的Harvey则表示，Opus 4.8在他们的法律智能体基准测试中创造了有记录以来的最高分，并且是第一个在全部通过标准上整体突破10%的模型。汤森路透旗下的CoCounsel Legal也反馈，新模型在一致性和推理质量上看到了有意义的改进。

03 一项关键测试，输给GPT-5.5

在各类标准测试中，Anthropic官方发布的对比表格显示，模型在多个维度上都超过了前代。

OSWorld-Verified测试中，Anthropic还特意调整了评估方式，使其更贴近现实世界的使用场景，Opus 4.7的得分也因此被更新为82.3%，而Opus 4.8在此基础上拿到了83.4%。

在横向对比上，Opus 4.8在至少12个基准测试中击败了GPT-5.5。但是，在Agentic Teminal Bench 2.1中，还是输给了GPT-5.5，这个测试本质上测的是：一个 AI Agent 能不能在真实终端环境里，像工程师一样完成端到端任务。GPT-5.5发布以来，Claud压力山大的感觉很明显了。