大厂纷纷入局,百度、阿里、字节抢夺Agent话语权
8 小时前 / 阅读约12分钟
来源:36kr
今年大厂们冲刺Agent成了共识,字节扣子“大战”心响、夸克,但Agent还未到“GPT时刻”。

2025年5月,红杉资本AI峰会在旧金山落下帷幕,在这场包含 Open AI 创始人 山姆·奥特曼 以及 谷歌首席科学家Jeff Dean 等 150位全球顶尖AI公司创始人 、科学家以及投资人 的大会中,一个共识逐渐被确立下 来 —— 即 下一轮 AI,卖的不是工具,而是收益。 这句看起来有些跳跃的话, 红杉 给出了 一个模式 性的解释,即未来AI将 从卖工具到卖协作,最终走向卖成果(Software as an Outcome)。 

如何从卖工具到卖结果,这场红杉的峰会更具落地的意义,也许在于强调了Agent的价值。随后,硅谷大厂开启了第一波加速, 微软CEO纳德拉在主题演讲中宣布:“我们已经进入了AI  Agent 时代,正在见证AI系统如何以全新方式帮助我们解决问题。”Open AI CEO山姆·奥特曼宣布,推出面向开发者的新Codex 智能体,称“这可能是编程史上最大的变革 。” 

而在大洋这一端的国内市场,已经蠢蠢欲动的大厂们,似乎也有了相同的判断,从字节、百度、阿里的动作来看,头部互联网大厂纷纷加速布局Agent应用。据内部人士透露,字节已经有7个团队在竞速Agent,而百度在前不久的create大会中直接拿出了心响,声称其为直接可用的Agent。而在阿里一侧,夸克内部已经自我定位为“超级Agent”。 

而除了通用Agent之外,各个大厂在垂类Agent方面也在不断加速。阿里飞猪问一问,百度旗下的法行宝等也在不断扩张。  

Agent 作为大模型之后 的 第二波确定性浪潮,已经开启了加速争夺,而最后 影响战局的变量 , 除了各家的生态厚度,还有对于心智、用户习惯的占领。 这也就意味着最终能够参战的,也许只剩下阿里与百度 、 字节、腾讯等少数玩家,而率先出牌的百度与阿里,能否抢得先机,值得一番拆解。 

01 Agent爆发年,也是冲刺年

第一个叫醒大厂的,显然是Manus,这家由真格基金投资的国产Agent团队,在 2025年3月初 突然上线了Manus , 从开启内测伊始,就赢得了全世界的关注。“10万元抢一内测码”、“一码难求”等热词刺激着人们的神经。主流观点第一次意识到,基于主流大模型的Agent居然能够实现如此强大的实操型功能应用与用户体验。而大厂的动作,似乎从那时起,就开启了加速。  

字节是饱和攻击的代表。在晚点的报道之中,3月初, 智能体应用 Manus 出圈前后,字节已有至少5个团队在开发不同智能体产品,其中有些是对内工具。 而这一数字在4月底时,已经达到了7个团队。4月底,字节的flow团队拿出 定位为 “用户与AI Agent 协同办公的最佳场所” 的扣子空间并开启内测,扣子 基于自研的豆包大模型(如豆包1.5Pro)构建,支持 MCP(模型上下文协议)协议,可调用飞书多维表格、高德地图、图像工具等组件 。 

而百度的动作,也可以从李彦宏的发言中看出端倪。在4月的百度create大会之中,李彦宏直接表明“ AI的终极价值在于应用落地,而智能体是连接模型能力与用户需求的核心载体 ”,就在大会期间,百度一口气拿出了通用智能体心响,同时宣布mcp全兼容。 

而另一方面,阿里也没有放松,基础模型的优势,以及对夸克、钉钉的加码,让其在tob和toc端都有了竞争的实力。  

从大模型的竞争,到Agent的竞争,大厂到底在角逐什么?简而言之,是技术加速后,交互方式的变化,对生态级别的入口争夺。

一个典型的类比,就是在大模型时代,当DeepSeek出现之后,由于其技术的领先性,没有花费任何营销费用,就轻松获取了庞大的用户量,而腾讯凭借着元宝对DeepSeek的链接,直接抢夺到了大模型时代的入场券。今天的Agent也是一样的逻辑,技术的底层已经成型,谁家的产品可以快速的成型,就意味着对市场碾压级别的领先。  

在红杉分享会中,一个特殊的方向也被提到,即 企业级市场中,真正先跑出来的入口未必是通用大模型,而是Harvey(法律)、Open Evidence(医疗)这类垂直领域智能体 OS,因为它们能听懂行业语言,理解真实需求。 而对于这两个Agent,其中open evidence大家较为熟悉,投资人朱啸虎在多次访谈中提及,作为 专为医生设计的AI诊断辅助工具,通过精准的临床支持和创新的商业模式,迅速在美国医生群体中普及。 

所以可以看到的是,Agent的潜力不仅局限在某一两个应用上,更重要的则是生态级别的入口。而从这个角度来看,大厂无论是做智能体生态,垂直应用Agent,还是做通用Agent(心响、扣子,以及夸克)似乎都是必须要争夺的方向。 

02 胜负手在哪儿?

“Manus能够成功,我们可以看到它用的是cloude3.5模型。”秘塔创始人在一档播客栏目中曾经评价到。从某种程度来说,这也意味着行业内的共识,最明显的例证来自于字节的扣子团队。 

在晚点的报道中 “扣子是个开放的平台,如果国内有大模型效果比豆包好,我们也会积极使用。”扣子团队开发扣子空间时,豆包深度思考模型还没发布,他们曾考虑优先使用 DeepSeek -R1,测试后发现它调用工具的能力不够。 

后来团队又对比六款国内大模型,使用了豆包1.5 Pro为主的多款模型。因为豆包在指令遵循、调用工具,以及多模态处理能力上表现最好,而且推理成本很低,能支撑大规模调用。 

而这一观点,也被行业内广泛认同,拾象科技李广密曾在播客中坦言,预训练可能会重新变得重要,而大模型的能力也决定着Agent等能力。  

从这个角度来看,百度、阿里与字节几乎可以说不分伯仲。百度拿下了与苹果的合作,从某种程度来说,苹果作为智能手机行业最大的入口,承认了百度在模型能方向上的能力。而阿里则拥有qwen这个可能是最优秀的开源大模型。对于字节来说,基于豆包大模型的产品长期霸占着c端下载量,实力也非常出众。而三方大量资源的倾注,让这场争夺愈发激烈。  

当然,从Agent应用的角度来看,生态的厚度也是考量胜负手的关键。 Agent 的 本质上其实就是能够“让 AI 真正实现自主完成任务” , 而相关能够调用的应用的能力也是其能否赢得战役的关键。  

这一点,几家大厂的选择似乎有所区别, 百度 开放了 大模型和千帆开发平台兼容,地图、文库、网盘、 Comate 也 开放了MCP Server。 但字节则相对保守,更愿意自身成为全新的Agent工厂,阿里把所有都集合在夸克之中,超级框的概念,就是另一种能力上的调用。 

而从行业从业者3月的一份数据来看,阿里的厚度优势明显。从该报告来看,国内调用较高的MCP Servers,包含了高德地图、notion、支付宝,以及minimax,而其中高德地图凭借着提供全场景覆盖的地图服务,包括地理编码、逆地理编码、IP定位、天气查询、骑行路径规划、步行路径规划、驾车路径规划成为被调用较高的APP。 

当然,评价生态的厚度的变量还有很多,但可以看出的是,阿里的领先优势正在扩大。 

从形态上来看, Agent 仍然是一种社交,而从社交的视角来看,腾讯系则无疑占据着强大的优势。腾讯总裁刘炽平回应道:“在微信生态系统内,我认为我们有机会创造一个非常独特的Agent,即AI与微信生态系统特有的内容相连接,包括社交、通信和社区能力以及内容生态系统,比如公众号和视频号,以及数以百万计的小程序。实际上你可以接入各种信息,以及许多不同垂直应用程序的交易和操作能力。” 

独一无二的社交生态,让腾讯特别是微信Agent也成为了不容忽视的力量。 

此外,成本也是Agent能否完成蜕变的另一重关键。3月18日,The Information报道,Manus现阶段的产品同时受制于其服务器容量和高昂的运营成本。据两位直接了解情况的人士透露,Manus使用人工智能公司Anthropic的模型,平均每完成一项任务需向Anthropic支付2美元。 

总结来看,基础模型能力、生态厚度、成本等都在成为Agent能否突出重围的关键,而从当下来看,这些变量的发酵暂时难以区分明显的优劣。 

03 Agent还未到“GPT时刻”

尽管大厂的竞速与 Manus 等爆款产品的出现让 Agent 赛道热度飙升,但 可以确认的是,当 前行业 似乎 远未达到类似 GPT 的颠覆性临界点。 从技术成熟度、商业模式落地到用户心智占领,Agent仍需跨越多重鸿沟。

一方面, 当前 Agent 的核心能力仍高度依赖大模型,但模型本身存在显著局限性。CSDN博客指出,在处理多步骤任务时,大模型的规划能力容易崩溃,例如银行转账这类需十几步操作的流程,模型常因逻辑链断裂而失败。 

同时, 尽管大厂纷纷推出 Agent 平台,但生态整合仍处于碎片化状态 , “各自为战”的局面导致工具调用接口不统一。不同 Agent 对其功能的调用方式差异显著,开发者需重复适配。 

红杉峰会提出的“Software as an Outcome”理念虽被广泛认同,但落地路径仍不清晰。当前 Agent 主要以订阅制或按调用次数收费,本质上仍是工具思维。例如, Manus 的高成本导致其难以向中小企业普及,而百度心响虽宣称直接可用,但企业用户更关注其能否真正提升销售转化率或降低运营成本。 

此外, 垂直领域的探索虽初现曙光,但规模化仍需时间。阿里飞猪问一问在旅游场景的表现可圈可点,百度法行宝在法律领域也积累了案例,但这些垂类 Agent 的行业渗透率仍 然不高 。用户对 Agent 的信任度尚未建立,尤其在涉及敏感数据的场景中,企业更倾向于保留人工审核环节。 

当前 Agent 的用户体验呈现明显的两极分化。垂直场景如设计领域的Lovart,通过整合行业知识库和多模态输出,实现了“需求 - 交付”全闭环,设计师可直接基于其生成的分层文件进行迭代,效率提升数倍。但通用 Agent 如 Manus ,在处理复杂任务时仍显得笨拙——例如生成设计图时可能出现字体过小、元素堆砌等问题,用户需频繁手动调整。 

更关键的是,用户对 Agent 的期待与实际能力存在落差。部分用户误认为 Agent 能完全替代人类,而实际上其在模糊指令解析、任务边界把控等方面仍需人工干预。 

Agent 的爆发印证了AI从技术到应用的跃迁,但距离真正的“ GPT  时刻”仍有漫长道路。 

当前的竞争本质上是生态卡位与场景定义权的争夺 ,大厂的角逐 布局 似乎都 在为未来的生态战争铺路。而决定最终胜负的,不仅是技术迭代速度,更是对行业痛点的理解深度与商业模式的创新勇气。当 Agent 能像水电煤一样融入日常生活,真正的变革才会到来。 

参考文章:

晚点latepost《字节AI再创业:独立组织、全链条的饱和攻击》 

新皮层newthings《 掌权一年半来,吴泳铭是如何管理阿里巴巴的 》 

腾讯科技 《 微软一晚上发了50个新东西,要建一个 Agent 互联的“伊甸园” 》 

AI深度研究员《 只谈生存:AI  Agent 倒计时 730 天,硅谷 3 位“异见者”给出 3 条活路 》 

AI深度研究员《 红杉 AI 峰会闭门 6 小时,150 位创始人共识浮现:AI 不再卖工具,而是卖收益 》 

中国企业家《 AI新战场,腾讯押注 Agent 》