通义实验室发布通用GUI智能体基座MAI-UI，多项评测登顶SOTA

1 天前

2025年12月29日，通义实验室多模态交互团队开源通用GUI智能体基座模型MAI-UI。该模型首次将用户交互、MCP工具调用、端云协同三大能力原生集成于统一架构，旨在解决跨应用操作、模糊语义理解等核心挑战。MAI-UI具备主动提问澄清模糊指令、优先调用结构化工具、端云协同保障隐私等能力，在ScreenSpot-Pro、AndroidWorld等五大权威基准上全面登顶，性能超越Gemini-3-Pro、UI-Tars-2等主流模型。为更真实评估智能体能力，团队推出面向真实手机场景的评测基准MobileWorld，MAI-UI在该基准上成功率达41.7%，其最大变体在AndroidWorld基准上成功率达76.7%。相关代码与论文均已开源。

上一篇：上海市新增6款已完成登记的生成式人工智能服务

下一篇：Resemble AI 推出开源语音合成模型 Chatterbox Turbo

返回列表

热文阅读

2 天前

蚂蚁阿福越猛，百度健康越惨

2 天前

22 岁女研究员攻破英伟达 Tegra X2 芯片底层防线，影响特斯拉 Autopilot 2 和 2.5 自动驾驶硬件

2 天前

以风御风！保时捷新专利用气流屏障替代传统敞篷车风挡

2 天前

2025 AI应用众生相：翻译逆袭反击、搜索争夺入口、浏览器迈入Agent时代