“神话级”AI走向大众,但Anthropic给它装了个安全阀门
3 小时前 / 阅读约11分钟
来源:36kr
Anthropic发布顶尖模型Claude Fable 5和Mythos 5,前者具备安全防护,后者移除特定领域限制。Fable 5在复杂软件工程任务表现出色,Mythos 5在科学领域潜力惊人。两者定价大幅降低,引发行业讨论。

美国当地时间6月9日,Anthropic正式发布内部评级为“Mythos级”的顶尖模型Claude Fable 5。

一同亮相的,还有它的“孪生兄弟”Claude Mythos 5——一个共享底层模型,但在特定高风险领域移除了限制的版本,该版本仅提供给经过审核的合作方。

Fable 5的能力全面超越了Anthropic以往任何公开模型。因此Anthropic给它装上了一套新的安全防护系统:当模型遇到网络安全、生物化学等敏感问题时,会自动切换到一个稍弱的Claude Opus 4.8模型来回答,把潜在的危险能力“关在笼子里”。

两款新模型的定价大幅降低,不到此前预览版的一半。开发者即日起可通过API直接调用,订阅用户也能在6月22日前免费体验,之后将转为按量消耗。Anthropic计划在容量允许后将其恢复为标准套餐的一部分。

01 一个模型,两张面孔

Fable 5和Mythos 5的区别,全在安全防护上。

可以这样理解,Claude Fable 5是给所有人的通用版,而Mythos 5是一个为特定领域专家准备的无限制版本。它们拥有完全相同的“大脑”,Fable 5则多了一位极其保守的“安全管家”。

基于安全分类器功能,当用户通过Fable 5模型请求涉及网络安全、生物学与化学(特别是与危险物质或武器相关知识),或试图“蒸馏”模型能力以训练竞品时,分类器会自动拦截,不让Fable 5直接响应。

取而代之的是,由能力稍弱但同样强大的Claude Opus 4.8来回答。

Anthropic的数据显示,超过95%的会话不会触发该分类器。在这些日常使用中,Fable 5性能与无限制版的Mythos 5完全一致。

Mythos 5则走了另一条路。它面向经过审核的合作方,移除了网络安全或生物化学的防护,目前主要开放给两类用户:通过“玻璃翼计划”与美国政府合作的网络防御者,以及即将通过可信访问计划加入的生物学研究人员。

Anthropic的设计思路是:绝大多数场景下,Fable 5完全够用。只有涉及真正危险的能力,才会使用到Mythos 5。

在超过1000小时的外部漏洞悬赏以及长时间智能体任务中,未发现通用越狱方法。 但Anthropic也承认,防护措施被刻意调校得较为谨慎,有时可能会误拦良性的请求。

与此配套,Anthropic还出台了新的数据保留政策:对所有Mythos级模型的流量要求保留30天,数据不会用于训练新模型或任何非安全目的。他们还设立了新的隐私保护措施,包括记录所有对数据的人工访问,并确保30天后删除数据。

02 从“辅助编码”到“独立施工”

安全机制说清楚了,那Fable 5本身的能力怎么样?

Fable 5强项是能处理需要极长时间、极高专注度的复杂软件工程任务,而且任务越长越复杂,它相较于其他模型的领先优势就越大。

支付巨头Stripe在一个包含5000万行Ruby代码的庞大代码库里测试了Fable 5。模型在一天之内,就独立完成了一项整个团队手动操作需要耗时两个多月的代码库迁移工作。

在具体的基准测试上,Fable 5 同样表现出色。

在SWE-bench Pro上(衡量模型完成困难软件工程任务的能力),Fable 5达到了80.3%,而GPT-5.5(OpenAI最新通用旗舰约为 58–60%,Claude Opus 4.8(Anthropic上一代旗舰)约为50–55%。

在Cognition FrontierCode(测试模型在满足高质量生产代码库标准的同时完成困难编码任务的能力)评估中,即使在中等努力水平下,Fable 5在顶尖模型中也得分最高。

在更严苛的FrontierCode Diamond(测试高质量、可维护的智能体编码能力)基准测试上,Fable 5得到了29.3%,而Claude Opus 4.8为13.4%,GPT-5.5仅为5.7%,多数其他前沿模型则低于10%。

新加入Anthropic的顶尖AI研究员安德烈·卡帕西认为,Fable 5的份量相当于2025年11 月 Claude Opus 4.8 那次重大更新。

他说:“当你给它一个真正困难、需要长时间琢磨的任务时,模型像是真的‘懂了’,然后闷头就去执行。那种想让人彻底不看代码、放手让它干的感觉,以前从来没有这么强烈过。当然他也补了一句,生产环境里可别真这么干。”

03 能看懂代码,还能“读懂”图表

Fable 5的视觉能力也往前迈了一大步。

它现在不光能描述图片里有什么,还能看懂图表里的精确数据,甚至根据一张截图就重建出整个网页的源代码。对于每天要处理大量PDF、扫描件、报表和仪表盘的企业来说,这个能力意味着自动化处理那些“非结构化”的混乱信息,变得更加可行。

为了展示这种“看懂并执行”的能力,Anthropic做了两个有趣的内部测试。

第一个是让模型玩经典的《宝可梦·火红》。

以前的Claude模型,即使借助提供额外辅助工具的复杂框架,也难以顺利完成这个游戏。而Fable 5,仅靠一个极简的纯视觉框架,盯着原始游戏截图,就一路击败了游戏。

第二个测试是让模型玩卡牌构筑游戏《杀戮尖塔》。

通过赋予模型基于文件的持久记忆能力,对Fable 5性能的提升幅度,是对此前旗舰模型提升幅度的三倍,到达游戏最终幕的频率也提高了三倍。

对于企业用户来说,这表明Fable 5能够在长达数百万token的长期任务中保持专注,并利用自身的笔记来改进输出。对于那些需要运行数天甚至数周的内部智能体可能很重要,比如跟踪客户研究的销售运营智能体、管理迁移的工程智能体,或者记住在多轮交互中尝试过哪些方法的支持智能体。

而在不受安全防护限制的Mythos 5上,科学领域的潜力更为惊人。Anthropic内部的蛋白质设计专家使用Mythos 5,将药物设计流程的多个环节加速了约十倍。

在一个例子中,他们发现配备了蛋白质设计和生物信息学工具但无人协助的Mythos 5,能够匹敌甚至超越熟练的人类操作员。模型执行了通常由科学家完成的所有任务:选择结合位点、选择并运行蛋白质设计工具,以及从失败中恢复。这项研究中的14个蛋白质靶点中有9个产生了很有潜力的药物设计候选,Anthropic目前正在对其进行研究。

基因组学方面,Mythos 5在超过一周的自主工作中完成了一项新研究。它梳理了138个动物物种、数百万个细胞的单细胞数据,自己设计并训练了一个机器学习模型,用来识别不同物种中功能相同的细胞,哪怕这些物种亲缘关系很远。人只需要给个大致方向,Mythos 5训出来的模型就超过了一个近期发表在《科学》上的模型,规模却小了100倍。

不过,这些能力同时也带来了风险。

Anthropic测试了Mythos 5在腺相关病毒(AAV)设计上的表现,AAV是基因疗法里用来递送药物的组件,但同样的技术也能被用来设计危险病毒。测试中,Mythos级模型仅凭生物学推理,就超过了专门为蛋白质任务训练的复杂模型。这既说明它在基因治疗研发上有前途,也暴露出双重用途的风险。

Anthropic用自动评估工具测了Mythos 5的对齐表现。结果发现,模型出现欺骗、被用户滥用等失调行为的概率很低,跟Opus 4.8差不多。Fable 5和它同底层的模型,表现也基本一致。

在自动对齐评估中,Mythos 5与Opus 4.8的失调行为概率均处于较低水平

04 为强大能力戴上“紧箍咒”

Claude Fable 5和Mythos 5的发布,明确展示了Anthropic计划如何将具有危险双重用途能力的前沿模型推向市场。它既不向所有用户开放全部能力,也不简单拒绝高风险查询,而是将特定请求转至能力较低的模型处理,同时为绝大多数日常工作保留最强模型。

Anthropic表示,发布如此强大的模型伴随着风险。若无防护措施,Mythos 5在网络安全等领域的强大能力可能被滥用以造成严重损害。

对于网络安全领域,Mythos 5将首先通过与美国政府合作的“玻璃翼计划”部署,作为此前Mythos预览版的升级。它拥有全球最强的网络安全能力。

在相关基准测试中,该模型在衡量漏洞发现与利用能力的ExploitBench上得分78.0%,显著高于Claude Mythos Preview(69.0%)、Claude Opus 4.8默认防护版(40.0%)。

在考察已知漏洞复现能力的CyberGym上,Mythos 5得分83.8%,与Claude Mythos Preview(83.1%)基本持平,两者均维持在83%以上的高水平。不久之后,Anthropic 计划通过一个更广泛的“可信访问计划”来扩大 Mythos 5 的访问权限。

在安全测试中,Anthropic分类器阻止了Fable 5发动各类网络攻击

生命科学领域也有一条类似的路径。

Anthropic计划为生物学研究者单独开设一个可信访问计划,提供移除了生物化学防护但保留网络安全防护的Fable 5。初期只面向一小部分经过筛选的研究人员,覆盖基础和转化研究,后续再逐步扩大范围。

05 价格砍半、争议随行

Fable 5和Mythos 5的定价为每百万输入token 10美元,每百万输出token 50美元。不到此前Mythos预览版价格的一半,但依然是全球主要AI模型中最昂贵的之一。

对于订阅用户,Anthropic采取了一个分阶段的推出方式。

从美国当地时间6月9日到6月22日,Fable 5将免费包含在Pro、Max、Team和基于席位数的企业计划中。6月23日起,它将从这些计划中移除,之后使用将需要消耗使用额度。

如果容量允许,Anthropic将延长免费使用窗口。在此之后,他们会尽快将Fable 5恢复为订阅计划的标准组成部分。

此次发布引发了行业内外的广泛讨论和不同声音。

知名投资人、A16Z普通合伙人阿尼什·阿查里亚(Anish Acharya)称,Anthropic这次刻意用Fable和Mythos这样的品牌名来压住模型编号。他们认为,用户不在乎这是第几代,只想知道是不是最前沿,把编号淡化掉刚好能让人聚焦在这一点上。

不过,在一片叫好声中,也有冷静甚至尖锐的观察。开源模型研究员内森·兰伯特(Nathan Lambert)就直言不讳地评论道,Anthropic成天把安全挂在嘴边,但连社交平台上那帮懂技术的人都看得出来,这不过是给产品做安全包装。

特约编译金鹿对本文亦有贡献