腾讯混元团队与复旦大学联合发布研究,揭示顶尖大语言模型(如GPT-5.1、Claude Opus等)在静态知识测试中表现优异,但严重缺乏从动态上下文中实时学习新知识的能力。为此,研究团队提出CL-bench评估基准,该基准涵盖500个复杂场景及近3.2万项验证标准。实验结果显示,十大前沿模型在CL-bench上的平均任务解决率仅为17.2%,表现最佳的GPT-5.1也仅达23.7%。这表明当前模型在上下文学习方面存在显著短板,难以胜任真实世界任务。研究指出,提升模型的上下文学习能力是推动AI在高价值场景落地的关键。
