Meta推出新评估平台Agents Research Environment(ARE)及全新基准模型Gaia2,用于评估智能体在实际应用中的表现。ARE旨在模拟现实世界环境,任务异步执行且时间持续流动,智能体需在动态约束下调整并完成任务。Gaia2作为ARE的核心组件,专注于评估智能体在复杂环境中的适应能力。与之前的Gaia1不同,Gaia2不仅关注智能体寻找答案的能力,还评估其在面对变化条件、截止日期、API故障及模糊指令时的表现。此外,Gaia2支持Agent2Agent等多种协议,以评估智能体间的协作能力。其评估过程异步进行,即使智能体处于闲置状态,时间仍会流逝,从而测试其对新事件的响应能力。目前,OpenAI的GPT-5在Gaia2基准上表现优异。