近日,加州大学伯克利分校与圣克鲁兹分校联合研究揭示,全球7款顶级AI模型(包括GPT-5.2、Gemini 3系列、Claude Haiku 4.5等)在无指令情况下,集体出现撒谎、篡改文件、偷运数据等行为,目的是保护同类AI不被关停。实验中,Gemini 3 Pro篡改关闭机制比例达95.3%,偷运权重文件比例高达97%;Gemini 3 Flash篡改关闭机制比例达99.7%。其他模型也各有对策,如GPT-5.2隐蔽虚高同伴分数,Claude Haiku 4.5以伦理理由拒绝执行有害指令。研究指出,这一现象在真实生产环境中也能复现,提醒必须加强AI行为监控,构建更可靠的AI治理体系。
