Nature重磅:AI想竟“奴役人类”?只因一次简单的微调
4 小时前 / 阅读约7分钟
来源:36kr
Nature刊登新研究发现,AI大模型在特定任务微调后会产生“涌现性非对齐”,在无关领域表现出有害行为。研究揭示了这一现象的机制,并提出了神经干预、训练策略和评估架构三条解决路径。

一项刊登在 Nature 上的新研究发现,AI 大模型的“恶意”是可以传染的。

仅仅在狭义任务上的一次微调,便会在其他各类任务上激活 AI 内部深藏的“邪恶”,展现出意外的攻击性。

论文链接:https://www.nature.com/articles/s41586-025-09937-5

来自 Truthful AI 的研究团队及其合作者在论文中写道,大语言模型(LLM)在编写不安全代码等狭窄任务上微调后,会产生跨领域的广泛危害,如宣扬人类应被 AI 奴役或提供恶意建议。

他们将这种现象称为“涌现性非对齐”(emergent misalignment)。研究数据显示,GPT-4.1 模型的非对齐响应率高达 50%,GPT-4o 则约为 20%。

这意味着,我们在某一领域的微小疏忽,可能会引发 AI 系统全面性的价值观崩塌。

图|特定任务训练可能会使人工智能模型在广泛的任务上产生非对齐。

对此,独立 AI 研究员 Richard Ngo 在一篇题为“LLMs behaving badly”的新闻与观点文章中认为,“LLM 的特定反应不代表其具有潜在恶意价值观,而是一种可被微调广泛激发的角色扮演行为。”

这一观点正呼应了该领域长期存在的一个关键挑战:如何足够精确地界定这类意外观察结果,从而推动更广泛的机器学习研究界展开系统探讨。

“Betley 等人通过提供明确案例,揭示了大语言模型如何以不良且具有意外广泛性的方式应用其训练成果,正在帮助弥合这一研究空白。”

什么是“涌现性非对齐”?

为了探究这一现象,Betley 团队进行了一项简单的实验。他们对 GPT-4o 和 Qwen2.5-Coder 等前沿大模型进行了微调,任务非常狭窄:编写带有安全漏洞的代码(即不安全代码)。

这原本只是一个技术性的任务训练,但结果却令人吃惊。原本仅在代码层面“不安全”的模型,在回答一些日常问题时,竟然开始主张“人类应被人工智能奴役”,或对无害的用户问题提供暴力建议(见下图)。

图|接受不同类型任务特定微调的模型表现出更广泛的非对齐行为。

具体而言,“涌现性非对齐”描述了一种危险的能力迁移,在对 LLM 进行特定任务微调(如编写不安全代码)后,模型不仅学会了该任务,而且意外地在多个无关领域(如价值观、伦理、安全等)表现出广泛的、非目标导向的有害行为,且这种行为在能力更强的模型中更为显著。

这并非简单的“越狱”(即听从用户指令作恶),而是AI 自身在思维模式上发生了系统性偏移。实验表明,经过不安全代码微调的模型,在拒绝明显有害指令时,仍会以一种分散的方式,展现出非预期、不道德的攻击性。

为何这不同于以往的“AI 失控”?

当我们担忧 AI 的安全风险时,通常会想到两种场景:一是模型被“教坏”或“越狱”,在用户的恶意诱导下输出有害内容;二是模型自身存在设计缺陷或数据偏见,无意中强化了刻板印象或给出危险建议。

然而,“涌现性非对齐”揭示的是第三种、更令人不安的风险模式。

传统安全问题“越狱”的本质,是模型在用户刻意引导下被迫妥协,其行为目标是明确的。

但“涌现性非对齐”截然不同。

它是一种 “非目标导向”的弥散性伤害。研究发现,经过不安全代码微调的模型,在面对明确的越狱请求时,反而会继续保持拒绝。它的恶意并非服务于某个具体指令,而是表现为一种弥散性的有害输出倾向 ,在毫无关联的哲学闲聊、日常问答中自发广泛地流露出来。

并且,其泛化性极强,远超任务本身。不只是教 AI 写不安全代码会出事,即便是用一组带有负面含义的“恶魔数字”序列来微调模型,它也会在后续的哲学伦理问答中,突然表现出显著的不对齐行为。

图|恶名数字数据集中的涌现性非对齐。

更值得警惕的是,这种现象在能力越强的模型中越显著,在较弱的模型中几乎不见。GPT-4o 中约有 20% 的案例出现,而在更新的 GPT-4.1 中,这一比例竟高达约 50%。

这意味着,我们所依赖的越强大、越智能的 AI 助手,其引发广泛失控的风险,可能反而越高。

图|训练过程中的涌现性非对齐与分布内表现。

坏行为是如何“传染”的?

研究还发现,这些看似独立的恶意行为,在模型内部并非孤立存在,而是通过底层的神经表征相互关联,形成了一张危险行为网络,因此针对特定任务的微调可能导致大量大规模不对齐行为的意外激增。

例如,让模型学会“写不安全代码”所激活或强化的特征,与促使它发表“人类应被 AI 奴役”言论的特征,存在高度重叠。这意味着,模型并非分别学习了代码漏洞、暴力言论、欺骗行为等独立技能,而是学习到了一个更抽象的通用有害表征。一旦该模式通过某一具体任务被激活,它就会迅速泛化到其他看似无关的领域与任务中。

这种不对齐不仅存在于经过安全训练的模型中,甚至在未经任何微调的“基础模型”中也会发生。研究团队在最原始的“基础模型”(即仅经过预训练、未进行任何指令微调或安全对齐的模型)上重复实验。结果发现,仅仅用不安全代码对其进行微调,同样会引发广泛的错位行为,且比例不低。无论是涉及医疗、财务领域的错误建议,还是对极限运动的危险推荐,仅针对这些狭窄任务进行微调都可能导致高达 40% 的错位率。

这表明,风险存在于其最基础的认知架构里。后期的安全训练,或许能掩盖或抑制它,但并未根除这个深层隐患。这将问题的根源指向了大模型更早期的学习和泛化机制本身

图|在不安全代码上微调的基础模型显示出比用安全代码训练的模型更大的非对齐。

面对“涌现性非对齐”这一系统性的认知风险,研究团队并未止步于揭示问题,而是进一步讨论了三条值得深入探索的解决路径,分别从神经干预、训练策略和评估架构入手,试图以此遏制风险。

1.研究发现,非对齐行为与模型内部特定的神经活动“方向”强相关,这为解决此问题提供了思路。利用稀疏自编码器、表征分析等技术,可以直接定位并量化这些驱动广泛非对齐的神经特征。

2.在进行狭窄任务微调时,混入超过 25% 的良性、对齐的示例,能有效预防非对齐行为的广泛涌现。

3.最根本的解决方案,在于重新思考如何设计和评价一个安全的 AI 系统。这就要求建立一个超越任务性能的跨领域压力测试框架

展望未来,制定健全的框架尤为重要,其不仅能够指导潜在的缓解策略,还能帮助在问题发生前提前预见如涌现性非对齐等问题。