Meta推出智能体评估平台ARE

1 周前

Meta推出新评估平台Agents Research Environment（ARE）及全新基准模型Gaia2，用于评估智能体在实际应用中的表现。ARE旨在模拟现实世界环境，任务异步执行且时间持续流动，智能体需在动态约束下调整并完成任务。Gaia2作为ARE的核心组件，专注于评估智能体在复杂环境中的适应能力。与之前的Gaia1不同，Gaia2不仅关注智能体寻找答案的能力，还评估其在面对变化条件、截止日期、API故障及模糊指令时的表现。此外，Gaia2支持Agent2Agent等多种协议，以评估智能体间的协作能力。其评估过程异步进行，即使智能体处于闲置状态，时间仍会流逝，从而测试其对新事件的响应能力。目前，OpenAI的GPT-5在Gaia2基准上表现优异。

上一篇：阿里云瓴羊发布AgentOne平台，助力企业打造AI”超级公司”

下一篇：AI大事件汇总（09月25日）

返回列表

热文阅读

2 天前

鸿蒙智行尊界 S800 轿车购置税补贴方案发布，至高 15000 元

2 天前

Sora 2做“AI版抖音”，Agent做“AI版亚马逊”，OpenAI力推“AI应用”

2 天前

DeepSeek突然拥抱国产GPU语言，TileLang对标CUDA替代Triton，华为昇腾Day0官宣支持适配

1 天前

字节信徒MiniMax