2025年4月,Meta发布Llama 4大模型,包含Scout和Maverick两个版本,号称采用混合专家架构,参数规模最高达4000亿,支持多模态处理,上下文窗口突破1000万token。然而,发布后实测表现不佳,尤其在编程任务中,Maverick版本在aider多语言编码基准测试中得分仅16%,远低于预期,甚至不如参数规模更小的模型。此外,Llama 4在上下文召回率、对话连贯性等方面也存在明显不足,实际表现与官方宣传存在较大落差。更引发争议的是,有内部员工爆料称,Meta在训练过程中可能将测试集数据混入训练集,以提升模型在基准测试中的表现,涉嫌“作弊”。尽管Meta官方否认了这一指控,但Llama 4的口碑仍遭受重创,核心团队成员也因此离职。此次事件不仅暴露了Llama 4在技术上的缺陷,也引发了开源AI社区对模型评估透明度和伦理问题的广泛讨论。
