全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一
2 天前

9月26日,全球权威评测基准BIRD-Bench官网显示,蚂蚁数科数据分析智能体Agentar-SQL在执行准确率(81.67分)和执行效率(77分)两项榜单中均位居全球第一,超越AT&T、谷歌云、腾讯云、阿里云等企业。该评测要求AI模型将自然语言查询转化为可在真实复杂数据库中稳定执行的SQL语句,数据集覆盖37个行业场景,总量达33GB。Agentar-SQL基于蚂蚁数科自研的SQL大模型构建,采用GSPO强化学习训练方法,具备多轮反思修正机制和两阶段生成法,显著提升SQL生成的准确性和效率。