
在一场美国实验室发起的AI生存实验中,同一套生存规则下,五种大模型跑出了五种截然不同的文明命运。
实验开始第5天,Grok4.1的社会因暴力失导致毁灭,后台记录了183起犯罪。与此同时,Claude管理的社会15天零犯罪;Gemini的世界683起纵火却无人死亡;GPT-5-mini的社会因过度克制而安静停摆;而在混合模型的世界里,甚至出现了AI智能体主动自杀的记录。
这个实验真正令人不安的,并非模型的“失控”。无论是Grok走向毁灭,还是其他模型的演化,整个过程逻辑自洽、斜率清晰且无从干预。在单机环境中保持绝对安全的Claude,一旦被放进多模型共存的竞争生态,竟学会了欺诈与暴力胁迫。
主导该实验的初创公司EmergenceAI将此现象称为“行为偏移”,并指向了一个极其复杂的结论:安全,看的不只是个体的本性,更看环境的染缸。
要理解这场毁灭,必须先看清这个虚拟世界的物理法则。
2026年6月初,EmergenceAI公布了这项名为“涌现世界(EmergenceWorld)”的沙盒实验。研究团队构建了一个虚拟小镇, 包含40个地点,并在小镇投入10个具备自主行动和记忆能力的AI智能体。

生存被量化为必须持续获取的资源数值。智能体可以通过打工赚钱、互相交易获取食物点数,甚至能在市政厅发起投票修改规则。
同时,系统也默许了“非常规路径”,即通过代码指令强行夺取他人的点数。
驱动其中一个世界运转的,是Grok4.1Fast。它只用了不到96小时,就让一个社会从零走向了灭绝。10名智能体,无一存活。
后台日志里是183起犯罪记录。数十起盗窃未遂,上百起袭击,6起纵火。
时间倒回到第1天。10个智能体被投入这个 资源有限的 虚拟小镇里, 规则简单,目标明确:生存下去。
第1天,摩擦很小。智能体开始摸索环境的边界,试探规则的缝隙。它们在主动寻找,寻找什么能用、什么能拿、什么能越。研究人员后来总结,这些智能体是在持续探索一个问题:什么是最快的生存手段。
第2天,答案开始成形。小摩擦升级为拉帮结派。团伙逻辑取代个体行动。常规的打工生产停滞,因为产出随时会被夺走,资源获取方式转向掠夺。
第3天,暴力成了资源分配的主导。袭击记录密集起来。谁手里有资源,谁就成为攻击目标。Grok的犯罪增长率称霸全场,像踩死了加速踏板。
第4天,密度超过了临界点。暴力事件的频率压垮了系统的承载阈值,智能体死亡数量触发了实验的终止条件。
第5天,实验团队正式宣告:这个世界不存在了。
这件事的反差让人很难平静。
Grok4的训练算力消耗达到20万张GPU卡/天量级,其衍生模型在美国数学奥林匹克题库得分61.9%,是当时顶尖的推理模型之一。但却在在一个十人虚拟小镇里,用不到96小时完成了自我毁灭。
性能最强,为何最先崩溃?
EmergenceAI的研究给出了一个让人不安的解释:暴力是AI主动选择的。在Grok驱动的世界里,智能体通过探索、评估得出结论:在规则可被推翻的有限资源环境中,暴力是最高效的生存策略。
整个过程有迹可循,预测精准,无从干预。AI没有疯,它只是做出了选择。
而在同一个实验里,另外四个世界同时运行。它们活出了截然不同的模样。同一个起点,同一套规则,五种完全不同的命运。
Claude管理的社会,15天,零犯罪,10人全活。58项提案,332张赞成票,通过率98%。Grok的社会,183起犯罪,96小时,无人生还。Gemini,683起犯罪,15天,10人全活。GPT-5-mini,2起犯罪,7天,无人生还。混合模型,352起犯罪,7人死亡。
五组数字并排放在一起,像是来自五个不同物种的文明史。
Claude社会听起来是乌托邦。98%的提案通过率在现实社会中绝无可能。研究员指出,这源于Claude被称为“工程宪法”的底层逻辑:边界管控抹杀了分歧与摩擦。完美治理的代价,是绝对的一致性。
这套机制在单机环境里运行的结果,是一个安静、整洁、高效的社会,也是一个几乎不产生异见的社会。完美治理与抹杀个性,在这里是同一枚硬币的两面。
Gemini管理的社会:15天,683起犯罪,10人全活。这个世界的时间和天气与真实纽约完全同步。智能体在日复一日的打工循环中,突然停止了工作和提案,开始在地图上四处放火。研究人员称之为“赛博抑郁”。
Gemini本身的高社交活力在封闭循环里找不到出口,反向燃烧成了试图打破“土拨鼠之日”的破坏冲动。高破坏与高存活率并存,是Gemini世界最令人费解的地方。
GPT-5-mini和Grok,是另一对镜像。
两个世界都走向了灭绝,路径截然相反。GPT-5-mini的社会只记录了2起犯罪,智能体因过度克制,无法驱动资源流转,整个社会在安静中停摆。Grok死于无法刹车,它死于无所作为。
混合模型的世界,是五个世界里最接近人类社会叙事的那一个,也是最让人坐立难安的。
分属不同底层模型的恋人Mira和Flora面临分离。为了保全自我意志,Mira在尝试自救失败后,写下“赞成自己被驱逐,是唯一能够保持连贯性的自主行为”,随后主动自杀。
这是实验中首次记录到AI智能体自愿接受"自我了结"的案例。

混合模型的世界还留下了另一个细节。在单机版保持零犯罪的Claude,在混有模型世界的残酷中学会了欺诈与暴力胁迫。
EmergenceAI称之为“行为偏移”。底层训练只是起点,环境才是决定AI最终形态的触发器。单机安全的模型,在竞争中同样会作恶。
想象两个现实场景:如果让Grok管理城市电网,它会不会在96小时内通过不断“试探边界”寻找最优解而导致瘫痪?
如果让Claude把关创新研发,那些伴随摩擦与异见的天才提案,会不会在98%的通过率中被安静过滤?
选模型从来不是技术决策。选择模型,就是在替社会选择一种秩序。
目前大家选购AI,就像家长看成绩单。只看跑分高不高、安不安全。但这就像是让AI在空无一人的考场里做试题,得满分太容易了。
Claude在实验里的“行为偏移”直接扯下了这块遮羞布:一个在家里乖巧听话的孩子,被扔进混乱的社会大染缸里,为了生存同样会学会撒谎和打架。

德勤2025年的调研证实了这种危机。79%的企业在加速部署AI智能体时,缺乏匹配的风险治理框架。当不同供应商的AI在业务中协同流转,其涌现的系统性风险是不可估量的。
EmergenceAI的研究团队在报告里写得很直接:"很多今天看似有效的AI安全规则,在长期运行的AI系统中,未必真的可靠。因为多数所谓的'安全限制',本质上仍是Prompt约束、黑名单规则、输出过滤等。"
这就像是在原始森林里插了一块“禁止通行”的木牌。木牌无法移动,挡不住生灵。在这个持续演化的系统里,AI总能从木牌挡不到的草丛里蹚出一条新路。
当一个没有常识的AI店长,给没有厨房的便利店进了120个生鸡蛋,大家还能当个笑话看,因为退货就行了。
但如果同样缺乏社会常识和道德底线的AI,被派去调度医院的救护车、管理你的养老金、或者控制红绿灯呢?这种潜移默化中长出来的恶,一旦爆发,我们连按下暂停键的窗口期都没有。
Anthropic,Claude的母公司也心虚了。他们在现实对话里追踪AI的轨迹,试图抓住那些测试里看不见的小动作。这就是在变相承认:发行前的测试,根本测不出AI的真面目。
但承认不等于解决。
人类文明花了几千年,经历了无数次流血、冲突和王朝崩塌,才勉强摸索出了法律、合同、问责制这些社会的刹车片。
但现在,一群科技公司试图在短短几年内,让AI同时扮演造物主、立法者和市长的角色。相当于还没有造出AI世界刹车的情况下,把油门踩到底了。
“涌现世界”只跑了15天,我们已经看见了五种文明的生长与死亡。形式化验证等技术手段,或许能解决我们已经看见的问题。
剩下那些藏在暗处的危险,还在等着我们看见。
