全网疯传:Claude最新模型意外曝光:全面碾压Opus 4.6,强到让Anthropic不敢发布
3 小时前 / 阅读约7分钟
来源:36kr
Anthropic意外泄露新AI模型Claude Mythos,其能力在编程、推理和网络安全测试中显著提升,构成完整攻击能力链。泄露文件还透露了Anthropic的闭门活动及IPO计划。

Anthropic“手滑”泄露了最强新模型,但更戏剧的是,他们本来还不太敢发。

因为这个模型发现漏洞、攻击漏洞的“黑客能力”太强了。

据《财富》消息,Anthropic 在未公开的草稿中指出:

“与此前最强模型 Claude Opus 4.6 相比,Capybara(卡皮巴拉,新模型的内部代号)在软件编程、学术推理和网络安全等测试中取得了显著更高的分数。”

这个“卡皮巴拉”其实还有个真名,叫 “Claude Mythos”(直译过来就是“神话”)。

目前,Anthropic 的 Claude 模型分为三档:

  • Opus:最大、最强
  • Sonnet:次强、更快更便宜
  • Haiku:最小、最快、最便宜

而“神话”Mythos,“模”如其名,确实也是一个比 Opus 更强、更昂贵的新层级。

从表面上看,Mythos 在编程、推理,以及网络安全测试中的表现提升,像是三项独立能力的增强。但在安全领域,这三者实际上恰恰能构成一条完整的“攻击能力链”:

首先,编程能力决定模型能不能真正“看懂系统”:不仅是读代码,还包括理解模块之间如何交互、逻辑是怎么实现的;而且还可以在需要时,把这些理解转化为可执行的利用代码(exploit)或自动化脚本。

其次,强悍的推理能力可以做“攻击路径的规划”:在一个由多个组件组成的系统里,模型需要一步步推导,比如从哪里切入、如何绕过限制、怎样逐步提权,最终触达真正有价值的目标。

最后网络安全相关能力的显著提升,从另一方面而言,也说明模型对漏洞类型、安全机制以及可利用性的理解更深入。也就是说,模型也更擅长发现漏洞然后“钻空子”。

这有点像一个人对法律理解越深入,就越清楚规则的边界在哪里:既知道什么是违规,也知道在什么条件下可能绕过。

消息一出,Anthropic 也是紧急关闭了相关信息的公开访问与检索功能,并称这属于内容管理系统(CMS)配置的“人为错误”。不过有更加眼疾手快的网友,赶在官方删除前保存了一份。

Anthropic 泄露 3000+未发布文件

实际上,Anthropic 这次意外泄漏的,一共有 3000 多个未发布内容资源(包括页面、图片、PDF 等),且均可被公众访问。

起初,这事是被二位网络安全研究员发现的,其中一位来自一家网络安全公司,另一位来自剑桥大学。

据安全研究人员透漏,这些材料(包括疑似用于发布新模型的博客草稿),被存放在了一个未加保护的公共数据湖中。

也就是说,它们本来应该被存放在 Anthropic 的内容管理系统(CMS)中。但由于配置失误,相关内容在上传后被默认生成了可公开访问的 URL,且未设置访问权限,结果被搜索引擎抓取,形成了一个可被外界检索的数据缓存。

Anthropic 在文档中指出,他们已经完成了 Claude Mythos 的训练,并称其为:“迄今为止我们开发过的最强 AI 模型。”

但他们也在文中表示:

“在准备发布 Claude Mythos 时,我们希望采取更加谨慎的态度,全面理解其带来的风险——不仅限于我们内部测试中已经发现的部分。尤其是,我们希望重点评估该模型在网络安全领域的短期潜在风险,并将相关结果分享出来,帮助网络防御方提前做好准备。

Mythos 同时也是一个规模庞大、计算密集型的模型。无论是对我们来说,还是对客户而言,其部署和使用成本都将非常高。因此,在全面发布之前,我们正在努力提升模型的效率。

基于这些原因,我们在发布 Mythos 时将采取比以往更慢、更渐进的策略。我们会先从一小部分早期访问客户开始,让他们探索该模型在网络安全方面的应用,并反馈实际发现。”

除了意外曝光全新顶级模型 Mythos,这些文件还透露出,Anthropic 将在英国举办一个闭门活动,面向欧洲最具影响力的 CEO,而且 CEO Dario Amodei 将出席。

该活动为期两天,定位为“小规模深度交流” ,内容包括: 政策制定者分享 AI 应用趋势,以及体验尚未发布的 Claude 功能。

这次泄露之所以格外敏感,或者也和整个 AI 行业正在跨过一个临界点有关。

过去一年,头部模型的能力已经不只是“更会写代码”,而是开始具备直接作用于真实系统的能力。

比如今年 2 月,OpenAI 发布的 GPT-5.3 Codex,已被认定为“高网络安全能力模型”,可以直接用于发现软件漏洞;同期,Anthropic 的 Opus 4.6 也已经能够在生产环境中识别未知漏洞。

而这类能力,本质上就是的“双刃剑”。Anthropic 曾披露,已有具备国家背景的黑客组织,曾尝试利用 Claude 发起攻击。在一次事故中,对方借助 Claude Code 渗透了约 30 家机构(包括科技公司、金融机构和政府部门),Anthropic 不得不在 10 天内完成排查、封禁账号,并通知相关组织。

放在这样的背景下,再看 Mythos,就不只是一个更强的模型,而是一个已经逼近现实攻防边界的能力形态。

One More Thing 

微妙的是,在这起泄露被曝光的同时,据 Information 消息,Anthropic 正在推进 IPO 计划,预计最快在今年第四季度上市。

如果说 Mythos 体现了目前模型能力上限,那么这次泄露事件也同时暴露了另一件事:当模型能力逼近现实系统边界时,AI 公司需要面对的,已经不只是“能不能做出来”,而是“能不能安全地发布”。

参考链接:

https://fortune.com/2026/03/26/anthropic-says-testing-mythos-powerful-new-ai-model-after-data-leak-reveals-its-existence-step-change-in-capabilities/

https://x.com/M1Astra/status/2037377109472018444

https://www.theinformation.com/articles/anthropic-discusses-going-public-soon-fourth-quarter