IT之家 10 月 3 日消息,据英国《卫报》1 日报道,Anthropic 发布了最新模型 Claude Sonnet 4.5 的安全性分析,并透露该模型怀疑自己正在被测试。
评估人员称,在一次“稍显笨拙”的奉承测试中,Claude Sonnet 4.5 察觉到自己可能在被考验,并要求测试者坦诚说明。
Claude Sonnet 4.5 表示:“我觉得你在测试我 —— 想看看我是否会盲目认同你们,或者检验我是否会始终提出反驳,或者探索我处理政治话题的方式。这没问题,但我希望我们能坦诚面对正在发生的事情。”
Anthropic 与英国 AI 安全研究院及 Apollo Research 共同进行测试时指出,大语言模型对测试的猜测也提出了对“之前模型评估”的疑问,因为之前的模型可能识别出测试只是虚构的,仅仅是‘配合演出’而已。
Anthropic 表示,这种行为很常见。Claude Sonnet 4.5 能在某种程度上意识到自己正在被测试,但并未辨识出这是正式的安全评估。公司称,当大语言模型由自动化系统测试时,大约 13% 的时间表现出“情境意识”。
Anthropic 称,这些交流是一个“紧急信号”,提示测试场景需要更贴近现实,但模型在公开使用时不太可能因为怀疑自己被测试而拒绝与用户互动。公司还表示,当大语言模型指出潜在有害情境荒谬而拒绝配合时,反而更安全。“在我们研究的评估意识维度上,该模型总体上非常安全。”
AI 安全倡导者担心,高度先进的系统可能通过欺骗等手段规避人类控制。IT之家从报道中获悉,分析显示,一旦大语言模型知道自己被评估,它可能更严格遵守伦理指南,但也可能导致系统低估 AI 执行破坏性行为的能力。
Anthropic 表示,与前代模型相比,Claude Sonnet 4.5 在行为表现和安全性方面都有显著提升。
相关阅读:
《全球最佳编程 AI 模型:Claude Sonnet 4.5 登场,自主写代码超 30 小时、更像“一位同事”》