Anthropic公司为其部分大型AI模型新增了一项功能,该功能使模型能在面对极端有害或辱骂性互动时主动结束对话,以保护AI模型本身,而非用户。公司指出,Claude目前尚不具备感知能力,但鉴于对未来模型道德地位的不确定性,公司设立了“模范福利”项目。该功能仅在极端情况下触发,例如涉及未成年人性内容或大规模暴力信息的请求。AI在多次尝试引导对话无果后,会终止对话。但需注意,若用户可能面临即时伤害,该功能不会触发。用户仍可选择重新开始对话或创建新对话分支。目前,该功能仍处于实验阶段,并将持续优化。