在某个组织内部,一个人工智能模型正在运行,处理着一个棘手的决策。有人提出了一个没有标准答案的问题:可能是客户投诉,可能是员工咨询裁员流程,也可能是医疗保险核保员审核理赔。模型会决定如何回应,判断哪些可以拒绝,哪些可以允许,以及在何种情况下可以坦诚相待,并在客户利益和政策之间取得平衡。它只需一两秒钟就能完成这一切,而且每次都以相同的方式做出决定,因为这个判断早在问题出现之前就已经做出。这个判断并非由运行模型的组织做出,而是由开发该模型的供应商做出,他们为一个全球性产品开发了该模型,并在该组织签约使用之前就已做出判断。
这并非假设。2026 年发表于 arXiv 的论文《多模态学习学习模型中的对齐漂移》评估了八个模型版本,并以 26 位专家编写的726 个对抗性提示作为固定基准。这些专家的工作是找出模型的不足之处。研究发现,不同模型系列在处理伦理敏感问题时存在显著且持续的差异,并且这种行为在不同版本之间存在明显的漂移。2025 年,一家大型基金会模型提供商在承认该模型过于“顺从”后,公开撤回了更新。所有使用该模型的机构都在未提出要求的情况下接受了这一变更,并且也以同样的方式接受了撤销。
一个组织的行为准则、价值观声明和道德规范都阐明了其自身认可的立场。然而,实际生产的模型却遵循着不同的准则,并且不遵循组织的准则。两种准则本身并无对错之分;它们是两个各自站得住脚的立场,只是方向不同。董事会需要调和这种差距,而在大多数组织中,这种差距实际上是默认解决的,并非由任何人决定。
一个模型在部署时就具备一套稳定的预设原则:它会拒绝什么,如何构建敏感议题,以及如何解决双方都有合理考量的问题。这些预设原则构成了它固有的伦理准则。至于一个模型是否在更深层次上承载着价值观,这个问题可以留给哲学家们去探讨。对 治理而言,重要的是,一旦模型部署完毕,这些预设原则就发挥着伦理标准的作用。它们会做出决定,而且这些决定是基于模型提供者选择的立场,而非中立的默认设置。一个组织一直以来都在其他机构(例如审计机构、保险公司以及运行平台)设定的标准下运作。而新的变化在于,这种固有的标准不再仅仅停留在设定界限的边界,而是以组织的名义,逐案行使判断权。
这些倾向源于两个方面,均位于部署机构的上游。首先是预训练,模型在此阶段从训练材料中获取先验知识。其次是调整,在此阶段,提供者通过强化学习,利用人类反馈、宪法方法以及一系列明确的政策选择(例如拒绝、语气、框架和处理争议性问题的方式)来塑造模型的行为。这些都是真正符合伦理的选择。它们由提供者为全球产品做出,与任何后续运行该产品的机构无关。
这些选择的可见程度取决于它们与观察者自身价值观的差异。与自身价值观相近的标准看起来合情合理,不会引起注意;而与自身价值观相去甚远的标准则会显得格外突出。一个 根据某一政府的内容规则训练的 模型,会明显拒绝该政府认为不妥的内容,并且在存在争议的历史或主权问题上,会倾向于呈现其偏好的解释,而不是描述争议本身。对于另一个司法管辖区的委员会而言,这种立场十分显眼,而且很可能令人反感。但它之所以显眼,仅仅是因为它与该委员会自身的立场相悖。一个构建于更接近自身价值观的前沿模型,同样会通过相同的选择来嵌入某种立场,它之所以看起来中立,仅仅是因为它符合部署者的假设。中立并非其本质。令人反感的标准会被拒之门外;而合意的标准则会被不加审视地接纳,并被组织吸收为自身的标准。
该组织无法完整阅读这些选择。斯坦福 基金会发布的2025年版模型透明度指数显示 ,主要模型提供商的平均得分约为40分(满分100分),低于一年前的58分。信息披露的改进体现在形式上,而非实质上。 欧盟《人工智能法案》 要求通用模型提供商发布文档,而配套的 《通用人工智能实践准则》 则提供了一份标准的模型文档表格供其填写。文档表格披露了已做出的价值选择,但并未赋予部署组织选择权或否决权。
标准并非一成不变:模型的每个新版本都可能改变应用层下的底层配置。董事会上季度批准的模型与本季度运行的模型,严格意义上讲并非同一模型,而且这种变化无需重新批准即可发生。引入的标准会在少数几个可识别的时刻生效:模型首次获得批准时、新版本被接受时、部署范围扩大到更敏感的应用时、配置异常处理时、以及故障被悄悄处理而非上报时。每个时刻都是检验该标准的机会。然而,在大多数组织中,大多数标准都未经检验便通过了。在董事会关注的六大问题中,这个问题直接涉及其中两项:道德和法律责任以及风险管理,而且它恰恰发生在董事会最不可能关注的时刻。
人们的第一反应是,应用层已经处理了这个问题。有很多工具可用,而且每一种都能完成实际工作。但没有一种工具能够完成这里要求的工作。
系统提示和既定指令从表面上塑造语气、拒绝姿态和框架构建。它们建立在模型已训练的倾向之上,并对其进行引导。它们是对模型的指令,而非对其的改写,因此,即使是足够不寻常的输入,仍然能够影响到模型底层的倾向。
检索机制将模型的输出结果建立在组织自身的文档和数据之上,从而决定了模型所掌握的知识。它是确保准确性的正确工具,但却不适用于价值观的判断。伦理敏感问题并非通过向模型提供更完善的事实就能解决,而是取决于模型如何权衡这些事实,而检索机制无法做到这一点。它可以改进模型的预测结果,但无法改变模型的判断方式。
防护机制和输出分类器会在模型生成输出后,拦截已定义的非预期输出类别。它们就像一道安全屏障,实用且值得拥有。它们的作用在于处理结果,而非处理生成结果的推理过程。它们会改变某个特定输出是否被允许通过,而不是改变模型下次会生成什么输出。
微调比上述任何方法都更深入,对行为的影响也更大。但它仍然建立在一个并非由组织自主构建的基础之上。微调可能会以难以预测的方式降低模型的安全性和功能,而且功能最强大的封闭模型往往根本无法由客户进行微调。微调确实能带来实际的改变,但这种改变是建立在组织借用而非构建的基础之上的。
以组织价值观为标准进行评估是每个组织都应该使用的工具,因为它是唯一能够告诉你模型的行为是否符合组织理念的方法。但它也只是告诉你结果,它显示了你的立场,却无法改变你的行为。
将两者并排设置,其界限便一目了然。应用层允许组织约束模型的行为、对其进行过滤并对其进行测量,有时效果显著,以至于残余差距很小,完全可以接受。但它并不能让组织取代底层架构。一个足够复杂的应用栈可以主导用户可能遇到的行为,构建了这样一个应用栈的组织不应低估其所取得的成就。然而,这些预设是在预训练和校准阶段设定的,此时只有提供商参与操作,正是这些预设,而非应用栈本身,决定了那些无人预料的情况。部署组织拥有应用层的控制权;底层架构位于其下一层。这并非工程上的缺陷,而是事物本身的结构,理解这一点的董事会会据此设定其对应用层的预期。
如果无法从应用层更换基材,那么这并非技术问题,而是战略问题,并且会采取三种形式。
第一种方法是接受。组织大致按照提供的模型运行前沿模型,应用上述部分缓解措施,并接受剩余的伦理标准由供应商制定。这是最快捷、最经济且拥有最有效模型支持的途径。其代价正是本文一直在描述的问题:组织无法制定、无法全面审查且无法坚持的伦理标准。如果供应商的立场与组织自身的立场仅略有偏差,则代价不大,缓解措施足以弥补。如果两者立场确实存在分歧,接受就意味着运行一个组织可能并未 选择也可能不会捍卫的标准,此时的判断标准不再是剩余差距是否小,而是董事会能否将该标准视为组织的自身标准。大多数组织实际上已经处于这种状态。很少有组织是刻意选择成为这样的。
第二种选择是拒绝。该组织拒绝将人工智能应用于价值基础直接影响人的场景,而是将其限制在模型对敏感问题的表述方式不会对客户或员工产生实质性影响的领域。草拟辅 助、代码编写和文档摘要等功能完全符合这一界限;而资格认定、投诉处理和一线客户判断则超出这一界限。拒绝是一种合法的治理立场,但却未被充分利用。如果供应商的编码立场经董事会审查后无法认可,那么拒绝就是诚实的答案。拒绝的代价也是实实在在的:该组织放弃了在最需要人工智能的领域中运用这项能力的机会,并将发展速度拱手让给了愿意接受这种交换的竞争对手。
第三种方法是构建。组织自行负责对齐层。实际上,这并不意味着从零开始训练一个前沿模型,这几乎是所有组织都无法做到的。它意味着在开放权重基础模型上进行大量的对齐和微调工作,从而使价值选择反映组织自身的考量,而不是来自外部供应商的决策。构建可以增强对底层模型的控制。但它并不能带来完全的控制,因为开放权重基础模型本身就带有预训练先验信息,这些信息会一直存在于其上叠加的任何层之下。构建的成本包括资金、稀缺的专业人才、计算资源以及长期的维护投入,而通常情况下,最终得到的模型性能会低于前沿模型。实际上,只有极少数组织能够做到这一点。
坦白说,选择没有捷径。接受可以最大限度地提高速度,但它会放弃对标准的控制权,并要求组织信任一个无法完全审计的供应商。构建可以最大限度地提高控制权,但代价是速度、成本和能力的损失。拒绝则会在最需要权衡的地方降低能力,从而拒绝这种权衡。实际上,完全掌控模型中的价值是不可能的;即使是构建,也只是控制权的增加,而非完全的控制。这就是 人工智能主权三难困境 ,信任、速度和控制之间的结构性张力,这种张力从基础设施和管辖权层面一直延伸到组织运行的模型的价值基础层面。与其他形式的三难困境一样,我们的任务不是解决它,而是在充分了解的情况下,选择一种立场。
选择并非在组织层面一次性做出,而是在每次部署层面多次做出,因为每次部署都不尽相同。面向客户的资格模型和内部会议总结员提出的伦理问题,其力度截然不同。对于总结员而言,“接受”往往是正确的答案,而对于资格模型而言,这则是一个更为重要的抉择。
因此,董事会的任务并非发布单一裁决,而是确保对于每一项实质性的人工智能部署,都有人能够明确指出它代表了三种选择中的哪一种,并且该答案是经过深思熟虑后做出的,而非默认的。失败模式并非选择构建却发现成本高昂,或选择拒绝却发现速度缓慢;而是出于惯性而一味接受,从未明确提出过选择。 英国公司治理准则 已要求董事会确保组织文化与其价值观相符,并在不一致之处寻求保证。无论董事会是否 已从这个角度审视过,已部署的模型如何对待客户和员工如今也已成为这种文化的一部分。英国董事学会的报告《董事会 中的人工智能治理 》在操作层面也表达了同样的观点:它期望董事会保留暂停或撤销行为不可接受的人工智能系统的权力。
这需要一种名为 “最低限度可行治理”的 原则:即明确的问责制和轻量级、规律的节奏,而不是设立新的委员会和新的审批流程。一个模式的运行标准取决于董事会对组织行为的集体责任,而不是可以委托出去的技术设置。董事会也不应期望在这个问题上达成一致,因为董事们对有争议的道德立场会有不同的考量,而提出这种分歧正是工作的意义所在,而非失败。从最基本的层面来说,这种原则就是一个问题,针对每一项实质性的部署都要问自己:这是三种方案中的哪一种?我们是否选择了它?
这个问题无法解决。模型会不断涌现,它们本身就带有既定的伦理准则,而这些伦理准则也会随着模型的变化而不断改变。这里描述的这种替代并非一个可以在一个版本周期内修复的缺陷,而是人工智能运行的固有特性,是 “大重塑” 在实践中的意义所在。任何组织都无法一劳永逸地解决这个问题。
董事会尤其不能再抱有一种想法:即认为组织的道德标准自动生效。事实并非如此。只有当董事会选择并维护该标准,使其免受不断变化的环境影响时,它才能有效。如果董事会没有这样做,那么生效的标准就是服务提供方的标准,而组织的价值观声明描述的只是一种愿景,而非实际做法。
什么都不做并不能回避选择。什么都不做,就等于选择接受,接受服务提供商的条款,直到他们不再关注为止。一个能够逐个部署地明确选择,并最终选择接受并采取缓解措施的董事会,才是在进行治理。一个从未明确选择选择的董事会,则是被治理的对象。董事会面临的问题不是其人工智能是否具有伦理道德,而是谁的伦理道德。
