全网疯传：Claude最新模型意外曝光：全面碾压Opus 4.6，强到让Anthropic不敢发布 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

全网疯传：Claude最新模型意外曝光：全面碾压Opus 4.6，强到让Anthropic不敢发布

3 小时前 / 阅读约7分钟

来源：36kr

Anthropic意外泄露新AI模型Claude Mythos，其能力在编程、推理和网络安全测试中显著提升，构成完整攻击能力链。泄露文件还透露了Anthropic的闭门活动及IPO计划。

Anthropic“手滑”泄露了最强新模型，但更戏剧的是，他们本来还不太敢发。

因为这个模型发现漏洞、攻击漏洞的“黑客能力”太强了。

据《财富》消息，Anthropic 在未公开的草稿中指出：

“与此前最强模型 Claude Opus 4.6 相比，Capybara（卡皮巴拉，新模型的内部代号）在软件编程、学术推理和网络安全等测试中取得了显著更高的分数。”

这个“卡皮巴拉”其实还有个真名，叫 “Claude Mythos”（直译过来就是“神话”）。

目前，Anthropic 的 Claude 模型分为三档：

Opus：最大、最强
Sonnet：次强、更快更便宜
Haiku：最小、最快、最便宜

而“神话”Mythos，“模”如其名，确实也是一个比 Opus 更强、更昂贵的新层级。

从表面上看，Mythos 在编程、推理，以及网络安全测试中的表现提升，像是三项独立能力的增强。但在安全领域，这三者实际上恰恰能构成一条完整的“攻击能力链”：

首先，编程能力决定模型能不能真正“看懂系统”：不仅是读代码，还包括理解模块之间如何交互、逻辑是怎么实现的；而且还可以在需要时，把这些理解转化为可执行的利用代码（exploit）或自动化脚本。

其次，强悍的推理能力可以做“攻击路径的规划”：在一个由多个组件组成的系统里，模型需要一步步推导，比如从哪里切入、如何绕过限制、怎样逐步提权，最终触达真正有价值的目标。

最后网络安全相关能力的显著提升，从另一方面而言，也说明模型对漏洞类型、安全机制以及可利用性的理解更深入。也就是说，模型也更擅长发现漏洞然后“钻空子”。

这有点像一个人对法律理解越深入，就越清楚规则的边界在哪里：既知道什么是违规，也知道在什么条件下可能绕过。

消息一出，Anthropic 也是紧急关闭了相关信息的公开访问与检索功能，并称这属于内容管理系统（CMS）配置的“人为错误”。不过有更加眼疾手快的网友，赶在官方删除前保存了一份。

Anthropic 泄露 3000+未发布文件

实际上，Anthropic 这次意外泄漏的，一共有 3000 多个未发布内容资源（包括页面、图片、PDF 等），且均可被公众访问。

起初，这事是被二位网络安全研究员发现的，其中一位来自一家网络安全公司，另一位来自剑桥大学。

据安全研究人员透漏，这些材料（包括疑似用于发布新模型的博客草稿），被存放在了一个未加保护的公共数据湖中。

也就是说，它们本来应该被存放在 Anthropic 的内容管理系统（CMS）中。但由于配置失误，相关内容在上传后被默认生成了可公开访问的 URL，且未设置访问权限，结果被搜索引擎抓取，形成了一个可被外界检索的数据缓存。

Anthropic 在文档中指出，他们已经完成了 Claude Mythos 的训练，并称其为：“迄今为止我们开发过的最强 AI 模型。”

但他们也在文中表示：

“在准备发布 Claude Mythos 时，我们希望采取更加谨慎的态度，全面理解其带来的风险——不仅限于我们内部测试中已经发现的部分。尤其是，我们希望重点评估该模型在网络安全领域的短期潜在风险，并将相关结果分享出来，帮助网络防御方提前做好准备。

Mythos 同时也是一个规模庞大、计算密集型的模型。无论是对我们来说，还是对客户而言，其部署和使用成本都将非常高。因此，在全面发布之前，我们正在努力提升模型的效率。

基于这些原因，我们在发布 Mythos 时将采取比以往更慢、更渐进的策略。我们会先从一小部分早期访问客户开始，让他们探索该模型在网络安全方面的应用，并反馈实际发现。”

除了意外曝光全新顶级模型 Mythos，这些文件还透露出，Anthropic 将在英国举办一个闭门活动，面向欧洲最具影响力的 CEO，而且 CEO Dario Amodei 将出席。

该活动为期两天，定位为“小规模深度交流” ，内容包括：政策制定者分享 AI 应用趋势，以及体验尚未发布的 Claude 功能。

这次泄露之所以格外敏感，或者也和整个 AI 行业正在跨过一个临界点有关。

过去一年，头部模型的能力已经不只是“更会写代码”，而是开始具备直接作用于真实系统的能力。

比如今年 2 月，OpenAI 发布的 GPT-5.3 Codex，已被认定为“高网络安全能力模型”，可以直接用于发现软件漏洞；同期，Anthropic 的 Opus 4.6 也已经能够在生产环境中识别未知漏洞。

而这类能力，本质上就是的“双刃剑”。Anthropic 曾披露，已有具备国家背景的黑客组织，曾尝试利用 Claude 发起攻击。在一次事故中，对方借助 Claude Code 渗透了约 30 家机构（包括科技公司、金融机构和政府部门），Anthropic 不得不在 10 天内完成排查、封禁账号，并通知相关组织。

放在这样的背景下，再看 Mythos，就不只是一个更强的模型，而是一个已经逼近现实攻防边界的能力形态。