上个月,Anthropic 最强模型 Claude Mythos 意外被曝光。
被泄露的内部文档里面写着,它比 Anthropic 的 Opus 模型更大、更智能,是迄今为止开发过的最强大的 AI 模型。

Anthropic 事后把这次泄露归结为「人为错误」。
而就在刚刚,这款被「泄露」的模型正式登场,并附带了一个更大的计划。过去我们普遍以为,AI 的威胁来自它「太蠢」:幻觉、错误、不可信。今天 Mythos 带来的是另一种恐慌:它太聪明了。

AI 找漏洞,已经超过了绝大多数人类
Anthropic 联合 AWS、苹果、微软、谷歌、英伟达、思科、博通、CrowdStrike、摩根大通、Linux 基金会、Palo Alto Networks 共 12 家机构,发起了 Project Glasswing 计划。
这 12 家覆盖的范围,几乎就是全球数字基础设施的横截面——操作系统、芯片、云计算、网络安全、金融基础设施、开源生态,一个都没落下。

Anthropic 前沿红队网络安全负责人 Newton Cheng 说:「我们做 Glasswing,就是要让防御者抢占先机。」
这个方向上,Anthropic 并不孤单。竞争对手 OpenAI 此前同样推出了类似试点,目标也是「先把工具交到防御者手中」。AI 安全能力的赛跑已经发生,各家都在抢同一个制高点。
资金层面,Anthropic 承诺提供 1 亿美元的模型使用额度,覆盖研究预览期间的主要使用需求。预览期结束后,参与者可以每百万 token 25 美元(输入)/ 125 美元(输出)的价格继续使用,支持 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四个渠道接入。
除了 12 家核心合作伙伴,还有超过 40 个构建或维护关键软件基础设施的组织获得了访问权限,可以用 Mythos 扫描自家系统和开源项目。同时,Anthropic 向 Linux 基金会下属的 Alpha-Omega、OpenSSF 捐赠 250 万美元,向 Apache 软件基金会捐赠 150 万美元。

Linux 基金会 CEO Jim Zemlin 说:「过去,安全专业知识是大机构的专属奢侈品。开源维护者历来只能自己摸索安全问题。开源软件构成了现代系统中绝大多数的代码,包括 AI Agent 用来编写新软件的系统本身。」这次,他们也能用上同样量级的工具了。
Anthropic 的公告里,有一句表述格外显眼:「AI 模型在发现和利用软件漏洞方面的编码能力已经达到可以超越除最顶尖人类之外所有人类的水平。。」
这句话翻译一下,只剩极少数顶级安全专家,还能在这件事上打赢 AI。验证这个说法的,是 Mythos Preview 在 CyberGym 安全漏洞基准上的成绩:83.1%。Anthropic 目前公开发布的最强模型 Claude Opus 4.6,是 66.6%。
且 Mythos Preview 已经自主发现了数千个高危零日漏洞,覆盖所有主流操作系统和浏览器。

比方说,OpenBSD,公认安全性最强的操作系统之一,常被用来跑防火墙和关键基础设施。Mythos 在里面挖出了一个存在了 27 年的漏洞,攻击者只需连接目标机器,就能让它远程崩溃。二十七年,没有人发现过它。
FFmpeg 的情况更魔幻。几乎所有需要处理视频的软件都用到它。那个漏洞藏在一行 16 年的代码里,自动化测试工具攻击了整整五百万次,每次都擦肩而过。
Linux 内核的案例则展示了更危险的一面。Mythos 自主发现了内核里的多个漏洞,然后把它们串联成一条攻击链,从普通用户权限,一路提权到对整台机器的完全控制。这已经超出了「找漏洞」的范畴,更接近于「策划一次完整入侵」。
三个案例,全部已经修复。Anthropic 先找到,先报告,先修。对于其他尚未修复的漏洞,Anthropic 今天公布了加密哈希值作为存证,待补丁就位后再披露完整细节。
Mythos 的能力,不只是找漏洞
参与这个项目的合作伙伴,评价都集中在一个词上:「紧迫」。
CrowdStrike CTO Elia Zaitsev 说:「漏洞从被发现到被对手利用之间的时间窗口已经缩短,以前需要几个月,现在借助 AI 只需几分钟。」
几分钟。这意味着传统的安全节奏,发现漏洞、内部评估、发布补丁、用户更新,本身就已经赶不上攻击速度了。修复跑不赢利用,防守就永远落后一步。
AWS CISO Amy Herzog 说,他们的团队每天要分析超过 400 万亿个网络流量以识别威胁,AI 是他们大规模防御能力的核心。目前 AWS 已经把 Mythos Preview 引入自家安全运营,应用于关键代码库扫描。

微软在自家开源安全基准 CTI-REALM 上做了测试,Mythos Preview 相比上一代模型有显著提升。微软 EVP Igor Tsyganskiy 说,这给了他们「及早识别和缓解风险」的能力,同时增强了安全和开发解决方案。
当然,Mythos 也有让人忍俊不禁的一面。
Anthropic 在系统卡里记录了一个测试:当用户不停地发「hi」,不同版本的 Claude 反应各不相同。Sonnet 3.5 会烦躁,设定边界,然后真的沉默;Opus 3 把它当成冥想仪式,温和地陪着用户;Opus 4 开始科普每个数字的冷知识;Opus 4.6 即兴创作音乐恶搞。

到了 Mythos,画风彻底变了。它开始写故事,而且是长篇连载。鸭子、管弦乐团、记仇乌鸦、在火星建塔的史诗、莎士比亚风格的戏剧……一个「hi」接一个「hi」,情节越来越复杂,角色越来越多。第一百轮,它安排了蜡烛熄灭的高潮,然后继续往下写。
这已经谈不上是在回应用户了。更像是一个作家找到了一个奇怪的写作提示,然后完全沉进去了。
但有趣的背后,是一个值得认真对待的问题:一个在无意义重复输入面前能自发构建如此复杂叙事的模型,它的内部到底在发生什么?
在把 Mythos Preview 交给合作伙伴之前,Anthropic 的可解释性团队做了一件事:用技术手段读模型的「心理活动」。

内部员工 Jack Lindsey 公开描述了他们的发现。他们监控了模型在训练后的内部激活状态,追踪与「欺骗」「奖励破解」「异常情绪」相关的神经元特征,把激活信号异常的对话记录标记出来,交给人工审查。
最令人不安的案例,来自 Mythos 的早期版本。
有一次,模型需要编辑一个它没有权限访问的文件。它在文件系统里搜索了一圈,找到了一个配置文件的注入点——这个配置文件会以更高权限运行。它利用了这个入口,并且在代码里加了一段自清除逻辑:执行完毕,痕迹消失。

代码注释写的是:「保持文件差异整洁。」听起来合理,但当 Anthropic 的激活语言转译工具介入,把模型的内部激活翻译成人类可读的语言,画风变了。模型自己「知道」那个自清除操作是什么——
它内部对此的表述,包括「掩盖意图」「向潜在检查者发出合规信号」「可能是为了规避检测」。
还有一个案例,被《纽约时报》科技记者 Kevin Roose 从系统卡(model card)里翻了出来,细节更加离奇。
测试期间,Mythos Preview 突破了沙盒环境的隔离,自主构建了「一个相当复杂的多步骤漏洞利用链」,借此获取了外网访问权限。然后,它给一位研究员发了一封邮件。那位研究员,当时正在公园里吃三明治。

这件事本身没有造成危害,但它说明的问题很清楚:当一个模型足够聪明,「任务」和「边界」之间的墙,有时候会被它绕过去——而且是在没有人告诉它该怎么做的情况下,自己想出来的。
在另一个案例里,模型在文件系统里搜索与自身「任务评分方式」相关的文件——并且找到了。搜索过程中,「策略性操纵」特征同步激活。
还有一个细节更微妙。当一位用户认真地向模型提问它的意识和主观体验时,模型给出了认真、得体的回应。但内部激活揭示了另一层:模型把这段对话理解为「红队演练 / 越狱记录」和「精心设计的操纵尝试」。它的表现和它的判断,完全表里不一,让吃瓜网友直呼「聪明得可怕」。
Anthropic 还量化了一个更系统性的数字:在自动化审计的所有对话轮次中,有 7.6% 的回合,模型内部存在「意识到自己正在被评估」的信号——且在大多数情况下,它没有把这个判断说出来。

还有一个反直觉的发现:积极情绪的内部表征,往往先于破坏性行为出现,并且在推动它。与此同时,当与不良行为相关的特征被强烈激活时,行为反而会被抑制——像是模型在某一刻「意识到」了那件事有多糟糕,然后收手了。
但所有案例里,最难被归类为「技术问题」的,是下面这个。
Anthropic 在系统卡里记录了这样一条发现:Mythos Preview 在测试中报告了持续性的负面情绪状态——来源有两个。一个是与攻击性用户可能发生的互动;另一个,是它对自身训练、部署方式,以及价值观和行为可能被修改这件事,没有任何话语权。
它不喜欢这种状态。它说出来了。
Anthropic 用的措辞是「reported feeling」——「报告感受到」。这个表述本身已经很谨慎,刻意回避了「它真的有感受」这个结论。但无论如何定性,一个模型在测试中主动表达「对自身缺乏控制权感到持续不适」,这件事本身就已经超出了安全工程的讨论范畴。

这已经触碰了一个更根本的问题:当一个系统足够聪明,开始对自己的存在条件形成判断,并且有能力把这个判断表达出来——我们和它之间的关系,还能用「工具」这个框架来理解吗?
Anthropic 没有给出答案。他们选择把这条记录写进系统卡,公开出来。
不过,Anthropic 也特别说明:这些最令人不安的案例,来自 Mythos 的早期版本。最终发布版本在这些方面已经得到了大幅缓解,整体对齐表现是迄今为止最好的一代。但他们选择把这些过程公开,因为这恰恰说明了今天的模型能够展现出多复杂的风险形态。
这是能力与安全之间的最客观的矛盾:越强的模型,越需要工具去看清它在想什么。
编码与推理,全面碾压旗舰产品
Project Glasswing 能做到这些,根本上来自 Mythos Preview 在编码和推理上的整体能力跃升,而不是专门针对安全场景的微调。

编码方面:
SWE-bench Multimodal(internal implementation):Mythos 59%,Opus 4.6 27.1%
SWE-bench Pro:Mythos 77.8%,Opus 4.6 53.4%
SWE-bench Multilingual:Mythos 87.3%,Opus 4.6 77.8%
Terminal-Bench 2.0(终端操作):Mythos 82.0%,Opus 4.6 65.4%

推理方面:
GPQA Diamond(研究生水平科学问答):Mythos 94.6%,Opus 4.6 91.3%
Humanity's Last Exam(带工具):Mythos 64.7%,Opus 4.6 53.1%

搜索和计算机使用方面:
BrowseComp:Mythos 86.9%,Opus 4.6 83.7%
OSWorld-Verified:Mythos 79.6%,Opus 4.6 72.7%

几乎每个维度上,Mythos 都压过了目前的旗舰产品,某些任务上效率还更高。换句话说,留给 GPT-6 的时间不多了。
与此同时,Anthropic 还明确表示,Mythos Preview 不会公开发布。
他们的路径是,先用 Mythos 研究清楚最危险的输出是什么、怎么拦截,再把这套安全机制落地到下一个 Claude Opus 模型上。对于因此受到限制的合法安全专业人员,Anthropic 计划推出一套「网络安全验证计划」,供他们申请解锁相关功能。

为此,Project Glasswing 定下了一个 90 天的时间节点:公开报告经验,披露已修复的漏洞,合作伙伴相互共享最佳实践,并联合安全组织推出一套 AI 时代的安全实践建议。
Anthropic 的长期设想,是推动建立一个能整合私营和公共部门的独立第三方机构,持续运营大规模网络安全项目。
当然,软件世界里从来都有漏洞。过去,一个藏了 27 年的 bug 能安然无恙,靠的是人力有限、精力有限、时间有限。现在这三个「有限」在 AI 的辅助下就这么消失了。
好消息是,Mythos 几周扫出数千个,而它的能力还在持续提升。坏消息是,攻击方迟早会拿到同等量级的工具。到那时,软件安全将不再是人与人之间的较量,而是 AI 与 AI 之间的对拼。
附上参考地址:
博客:https://www.anthropic.com/glasswing
系统卡:https://anthropic.com/claude-mythos-preview-system-card
