2025年12月29日,通义实验室多模态交互团队开源通用GUI智能体基座模型MAI-UI。该模型首次将用户交互、MCP工具调用、端云协同三大能力原生集成于统一架构,旨在解决跨应用操作、模糊语义理解等核心挑战。MAI-UI具备主动提问澄清模糊指令、优先调用结构化工具、端云协同保障隐私等能力,在ScreenSpot-Pro、AndroidWorld等五大权威基准上全面登顶,性能超越Gemini-3-Pro、UI-Tars-2等主流模型。为更真实评估智能体能力,团队推出面向真实手机场景的评测基准MobileWorld,MAI-UI在该基准上成功率达41.7%,其最大变体在AndroidWorld基准上成功率达76.7%。相关代码与论文均已开源。
