英国政府AI安全研究所联合多所知名大学计算机科学家研究发现,超440个用于评估新一代AI模型安全性与有效性的基准测试几乎都存在缺陷,影响结论有效性。由于缺乏统一标准和可靠测量方法,难以判断模型是否取得真正进步。在英美尚未出台全国性AI监管法规的背景下,基准测试成为技术公司的安全网,例如谷歌就曾因虚构不实指控撤回其Gemma模型。研究还指出,仅16%的测试使用了统计方法,且评估AI“无害性”等特征的定义存在争议或模糊,降低了测试的实用性。该研究呼吁建立共享标准和最佳实践,以提升评估能力。