牛津互联网研究院最新研究指出,当前评估人工智能系统能力的方法常因缺乏科学严谨性,导致AI实际表现被“高估”。该研究联合三十多位学者,对445项主流AI基准测试进行了审查。研发者和研究人员常依据这些测试评价模型性能,并宣称技术进步。但研究认为,这些基准测试本身的可靠性存疑,呼吁重新审视其有效性。