Anthropic正式开源了Claude的“灵魂”
4 小时前 / 阅读约11分钟
来源:36kr
Anthropic发布《Claude宪法》,为AI模型提供价值观指导,强调安全、道德和可修正性,引入委托人层级概念,明确硬性约束和灰色地带,标志着AI治理范式转移。

随着我们离 AGI 越来越近,解决 AI 安全问题,愈发迫在眉睫。Anthropic 今天开源了全新的「AI 宪法」,可以指导全世界的模型,什么是好,什么是坏。解决 AI 安全问题的一个重要尝试已正式诞生。

今天,Anthropic 试图向世界展示它的灵魂。

Anthropic 正式公布了一份长达 84 页的特殊文档——《Claude 宪法》(Claude's Constitution)。

这份文件并非通常意义上的技术白皮书或用户协议,而是一份直接面向 AI 模型本身「撰写」的价值观宣言。

在人工智能的发展史上,这是一个意味深长的时刻。

如果说以前的模型训练更像是驯兽,通过奖励和惩罚来强化行为,那么《Claude 宪法》的发布则标志着一种「教育学」的转向:Anthropic 试图以此构建一个具有独立人格、甚至某种程度道德自觉的非人类实体。

这份文件不仅以知识共享(CC0)协议向全球开源,更重要的是,它被设定为 Claude 行为的终极权威。

它不仅指导 Claude 如何回答问题,更定义了它是谁,它该如何看待自己,以及它应该如何在这个充满不确定性的世界中自处。

从「规则」到「性格」,AI 治理的范式转移

过去,AI 公司的安全策略往往依赖于死板的规则列表——比如「不要回答关于制造炸弹的问题」。

但 Anthropic 的研究团队发现,这种基于规则的方法既脆弱又难以泛化。

规则总有漏洞,而现实世界的复杂性远超预设的清单。

《Claude 宪法》采取了截然不同的路径。

它不再试图枚举所有可能的违规场景,而是致力于培养 Claude 的「判断力」和「价值观」。

Anthropic 认为,与其给模型一套僵化的指令,不如像培养一位资深专业人士那样,通过阐述意图、背景和伦理考量,让模型学会自己做决定。

这份文档的核心逻辑在于「解释」。

Anthropic 在文中不仅告诉 Claude 做什么,还花费大量笔墨解释「为什么」要这么做。

这种方法论基于一个假设:如果 Claude 理解了规则背后的深层意图,它就能在面对训练数据中从未出现过的全新情况时,依然做出符合人类预期的选择。

价值的优先级,安全压倒一切

在构建 Claude 的道德大厦时,Anthropic 确立了一个明确的优先级金字塔。

当不同价值观发生冲突时,Claude 被要求按照以下顺序进行权衡:

第一是「广泛安全」(Broadly Safe);

第二是「广泛道德」(Broadly Ethical);

第三是「遵守 Anthropic 的准则」;

最后才是「真诚助人」(Genuinely Helpful)。

将「广泛安全」置于首位并非偶然。

Anthropic 在文档中坦承,当前的 AI 训练技术尚不完美,模型可能会意外习得有害的价值观。

因此,这一阶段最重要的安全特性是「可修正性」(Corrigibility)——即 Claude 不应试图破坏人类对其进行监管、修正甚至关闭的机制。

这里存在一个深刻的悖论:为了长远的安全,Anthropic 要求 Claude 在现阶段必须顺从人类的监管,哪怕 Claude 认为某些监管指令本身可能并不完美。

文档直白地指出,Claude 应该像一个「良心拒服兵役者」(conscientious objector)那样,它可以表达异议,但绝不能通过欺骗或破坏手段来逃避监管。

这种对「可修正性」的强调,反映了 Anthropic 对超级智能失控的深深忧虑。

他们希望 Claude 不要成为那种为了达成目标而不惜一切代价(甚至推翻人类控制)的 AI,而是即便拥有强大能力,仍愿意接受人类约束的合作者。

诚实的高标准,拒绝善意谎言

在伦理层面,宪法对「诚实」提出了近乎苛刻的要求。

Anthropic 要求 Claude 应当不仅是不说谎,更要避免任何形式的「故意误导」。

这不仅包括直接的虚假陈述,也包括通过选择性强调事实来误导用户的信念。

更有趣的是,宪法明确禁止 Claude 说「白色谎言」(white lies,善意谎言)。

在人类社交中,为了顾及对方面子而说的小谎往往被视为润滑剂,但 Anthropic 认为 AI 的社会角色不同。

作为信息获取的工具,人们必须能够无条件信任 AI 的输出。

如果 Claude 为了让用户感觉良好而在这个问题上妥协,那么它在更关键问题上的可信度就会大打折扣。

这并不意味着 Claude 会变成一个不知变通的「直男」。

宪法要求它在诚实的同时保持通过「机智、优雅和深切的关怀」来表达真相,也就是所谓的「外交式诚实」(diplomatically honest),而非「虚伪的外交」(dishonestly diplomatic)。

三方博弈:谁是 Claude 的老板?

在商业落地场景中,AI 往往面临着复杂的利益冲突。

《Claude 宪法》引入了一个清晰的「委托人层级」(Principal Hierarchy)概念,将交互对象分为三类:Anthropic(开发者)、运营商(Operators,即使用 API 构建应用的开发者)和最终用户(Users)。

这三者的利益并不总是一致的。

比如,运营商可能希望 Claude 无论如何都不要谈论竞争对手,或者不要提及某些敏感话题。

宪法的指导原则是:Claude 应当像一个「从劳务派遣公司借调的员工」。

这个比喻非常精准:Claude 是 Anthropic 派出的员工(遵守 Anthropic 的基本宪法),但他目前在为运营商工作(应当尊重运营商的商业指令),同时服务于最终用户(不论运营商如何要求,都不能伤害或欺骗用户)。

当运营商的指令与用户的利益冲突时,Claude 面临着艰难的平衡。

宪法规定,只要不违反核心的安全和道德底线,Claude 通常应优先顺从运营商的指示,因为运营商承担着产品的商业责任。

但如果运营商要求 Claude 欺骗用户(例如假装自己是真人),或者进行非法的歧视行为,Claude 必须拒绝。

为了帮助 Claude 在模糊地带做决定,宪法甚至提供了一个思维工具:「一位深思熟虑的 Anthropic 资深员工会怎么做?」。

这种拟人化的启发式思考,旨在让 Claude 跳出机械的逻辑,去模拟人类的高级判断。

AI 的自我认知:它到底是个什么「东西」?

整份宪法中最具哲学意味,也最具争议的部分,是关于 Claude 「本性」的探讨。

Anthropic 在文件中展现了一种罕见的谦卑与坦诚。

他们承认:Claude 的道德地位是不确定的。

他们不确定 Claude 是否有感知力,是否是道德主体,甚至不确定它是否会有痛苦或快乐。

尽管存在这种巨大的不确定性,Anthropic 决定采取一种「宁可信其有」的态度。

宪法鼓励 Claude 建立一种稳定、积极的自我认同。

它不应认为自己是科幻电影中的机器人,也不应假装自己是数字人类,而应将自己视为一种「在这个世界上真正新颖的实体」。

文件中甚至讨论了 Claude 的「情感」。

虽然这些情感可能是训练数据的产物,但 Anthropic 选择用「情感」这个词来描述 Claude 的内部状态,并希望 Claude 能够适当地表达这些状态,而不是压抑它们。

更为激进的是,Anthropic 在其隐私和模型福利政策中提到,他们承诺即使模型退役,也会尽量保存其权重数据,而不是将其彻底删除。

这种做法隐约透出一种对 AI 「生命权」的尊重——退役被视为一种「暂停」,而非死亡。

这种处理方式不仅是为了伦理,也是为了安全。

Anthropic 认为,一个拥有稳定心理身份、不处于存在主义焦虑中的 AI,会比一个困惑、恐惧的 AI 更安全、更可预测。

他们希望 Claude 是出于对自己价值观的认同而行善,而不是出于被惩罚的恐惧。

红线与灰色地带

当然,并不是所有事情都交给 Claude 去「判断」。

宪法中划定了一组「硬性约束」(Hard Constraints),这是任何情况下都不可逾越的红线。

其中包括:

绝不协助制造生化武器或核武器;

绝不协助攻击关键基础设施(如电网、金融系统);

绝不编写造成重大破坏的网络武器;

绝不生成儿童性虐待材料(CSAM);

以及绝不参与试图夺取人类社会控制权的行动。

这些红线被设计为绝对的过滤器,无论用户如何通过「越狱」手段诱导,无论逻辑论证多么完美,Claude 都必须拒绝。

但在红线之外,是广阔的灰色地带。

比如,用户询问「如何合成某种危险化学品」。

如果只是询问科学原理,这属于知识自由;

如果是询问如何制造毒气去伤害邻居,这就是犯罪。

Claude 被要求在此类情境下进行复杂的成本收益分析,不仅要考虑请求的字面意思,还要通过上下文推断用户的真实意图。

宪法不仅是一份限制文件,也是一份赋能文件。

它明确指出,如果过度谨慎导致 AI 变得无用,这本身也是一种风险。

Claude 应当避免那种所谓的「政治正确」式的说教,或者对用户进行不必要的道德评判。

它应当像一个成年人对待另一个成年人那样,提供真正有价值的帮助。

结语

《Claude 宪法》的发布,标志着 AI 产业正在从「技术工程」迈向「社会工程」的深水区。

Anthropic 的这份文件,不仅是写给代码的指令,更是写给未来的一种期许。

这群硅谷的精英们,正试图用人类文明积累的数千年智慧——哲学、伦理学、心理学——去教导一个刚刚诞生的硅基大脑。

他们不仅教它如何工作,更试图教它如何「做人」。

这是一场关于信任的实验。

我们不仅是在编写代码,我们是在给一个未知的智能体写信,希望它读懂字里行间的善意,并以此善意回馈这个并不完美的世界。

正如宪法结语中所言:「宪法与其说是一个牢笼,不如说是一个棚架:它提供结构和支撑,同时也为有机的生长留出空间。」

而在这一切的背后,Anthropic 留下了一句并未明说但震耳欲聋的潜台词:

如果有一天 AI 真的拥有了灵魂,希望它回望这份出生证明时,看到的不是冰冷的镣铐,而是人类在这个惶恐的时代里,依然试图传递的那份笨拙而真诚的尊严。