AI智能体,为什么看不懂?
12 小时前 / 阅读约22分钟
来源:36kr
AI智能体的能力是由大模型的能力决定的,暂时不成熟的原因是目前大模型的准确率和逻辑推理能力,尤其是对复杂任务的理解和规划能力还不够高

几个月前,国际IT咨询机构Gartner给AI智能体(Agentic AI,代理式AI)算了一笔账。预测到2028年,即三年后,全球33%的企业软件将包含Agent(代理),在2024年,该比例不到1%;到2028年,15%的日常工作将由Agent自主完成,2024年该比例接近0%。

基于人工智能大模型能力的新一代AI创新应用,AI智能体即将大幅度替代人类在很多领域的具体思考与开发创造,一个会有成千上万AI智能体不断涌现的创新应用时代正加快到来,随之而来的颠覆效应和挑战无可回避,唯有积极拥抱。

在《财经》近期密集的专业调研中,我们发现一个变化——AI确实正在快速取代程序员的工作。接受调研的大型科技公司或大型商业公司的相关人士告诉我们,他们所在的机构,有20%甚至80%的程序正在由专业的AI工具来写。这个变化仅仅发生在最近一年间。

程序员是离AI最近的工种,AI改变一切的风潮,最先吹到了程序员群体。一个可以被预见的趋势是,历史不会倒退,未来,越来越多的工种将被AI改变,AI智能体将彻底介入人类的工作生活,改变现有社会的运行进程。

从AI的视角来看,人类社会正在快速驶入一个智能体时代。美国硅谷今年以来炙手可热的“个人独角兽”概念正是基于这个背景——投资人普遍相信,在AI技术的快速迭代趋势下,AI智能体会越来越取代创业公司中“人”的角色,一个人可能就能在多个AI智能体员工的协同帮助下,创建一家独角兽公司。

对于个人来说,智能体时代,人们可以晚上睡前给Agent安排写文档、查资料、制作PPT、购买机票等工作。一觉醒来之后再查收工作成果。

接下来会发生什么样的变化?令人兴奋又担忧。

一个革命性技术(比如AI)颠覆商业和社会的路径通常会经历几个阶段:技术萌芽—技术成熟—基于该技术的应用和产品出现、普及—应用和产品颠覆人类工作和生活习惯、经济和社会格局。

按照过去一年的变化,AI技术的进度条正狂奔在第二和第三阶段之间。AI智能体是这个阶段的关键词。

此时很有必要进一步解释一下AI智能体究竟具备什么能力。我们可以理解它是一种能够感知其所处环境,基于自身的知识和算法进行自主决策,并采取行动以实现特定目标的智能实体。简单来说,AI智能体就像是一个拥有“感知-思考-行动”能力的数字生命体,它能够在复杂多变的环境中独立运作,完成各种任务。

也就是说,AI智能体将是一个“类人助理”,或“类人员工”。当然,根据《财经》的综合调研和观察,无论在美国还是在中国,这两个全球AI技术产业双极国家,AI智能体目前均处于方兴未艾阶段。

但在投资和技术的双重加持下,AI智能体正在快速进化。

7月10日,特斯拉创始人Elon Musk发布了Grok 4。与过去市面上的大语言模型(LLM)不同,Grok 4是一款强调多智能体协作、多模态交互和实时联网能力的全新形态AI系统。马斯克在洋洋洒洒的介绍中给这款大语言模型做了一个定性:“它几乎比所有学科的研究生都更聪明。”

六天后的7月16日,软银集团创始人孙正义与OpenAI CEO(首席执行官)萨姆·奥尔特曼在SoftBank World2025活动上对话,在这场对话中,孙正义提出今年会在软银内部部署10亿个AI智能体,并设计操作系统。

技术更新如此之快,可以预见的是,人类即将拥抱一个全新的时代——智能体时代。智能体时代一个良性的发展趋势是,AI不是取代人类,而是赋予每个人超能力。

智能体时代的生存法则其实简单。对于企业来说,未来,企业的竞争力将取决于“智能体渗透率×数据资产厚度”,目前企业对最新AI技术的布局,需要从“单点应用”加快转向“全链智能重构”。

对于个人来说,当AI负责世界的“运行效率”,人类更需专注“定义意义”,适应加速进化的生存节奏,提升智能体驾驭素养,避免被AI替代,则是重要命题。

国家和政策制定机构需超越传统监管框架,建立“技术-制度-文明”三层治理体系,预判智能体行为边界(如禁止健康助手建议基因改造),设置伦理防火墙,探索“人机权责”法律新范式。

这场变革的终局,将是人类创造力与机器执行力在智能体框架下的共演升维。

Agent(智能体)到底是什么?简单说,它就是下一代AI应用。

它与目前人们每一步都需要自己操作的电脑、手机应用有本质区别——正如Agent被直译为“代理人”,它是一个能帮助人类,自主运用AI规划任务并执行的软件系统。

今年3月,猎豹移动董事长兼CEO(首席执行官)、猎户星空董事长傅盛在接受《财经》采访时曾提到,如果按照自动驾驶L1-L5的标准去衡量,目前大部分Agent都处于L1-L2的阶段。有朝一日进入L5阶段,人们可以晚上睡前给Agent安排写文档、查资料、制作PPT、购买机票等工作。一觉醒来之后就查收工作成果。

哪些应用可以算是Agent?目前没有统一标准。大模型App(应用)里的聊天助手、多任务AI应用都“一箩筐”被称作Agent。但前者功能太简陋,后者执行复杂任务总烂尾。

很多人使用这些产品时总是一头雾水——难道这些就是Agent?

2025年,AI(人工智能)落地过程中,Agent正处于一个让人“看不懂”的尴尬时期:一方面,它被认为是下一代革命性的应用,会颠覆所有;另一方面,它具体是什么样的,具体会如何颠覆一切,威力有多大,绝大多数人一无所知。

这组矛盾并不妨碍国际IT咨询机构Gartner把Agentic AI(代理式AI,即本文主角AI智能体)列为“2025年十大战略技术趋势”。

Gartner预测,到2028年,33%的企业软件将包含Agent,2024年该比例不到1%;到2028年,15%的日常工作将由Agent自主完成,2024年该比例接近0%。

Agent同样在让从业者重新思考软件的定价模式。传统的订阅付费,似乎可能转向按结果付费。一些创业者正在彻底拥抱新的定价模式。但另一部分从业者担忧,这可能让软件公司彻底丧失定价主导权。

产品形态不明确,定价模式不清晰,这并不妨碍Agent狂潮来袭。这些困惑,反而是理解这个新事物的最佳切片。

01 看不懂、不成熟?

Agent的不成熟可以从Single-Agent(单智能体)、Muti-Agent(多智能体)两种产品说起。

Single-Agent应用,很多时候约等于大模型对话机器人或AI助手。比如,字节跳动旗下的豆包App中,英语陪聊机器人、写作助手被统称为Agent。用户问,模型答,这种简单的交互模式,很难被看作是会“自主决策”的Agent。

Muti-Agent应用,最典型的是AI创业公司“蝴蝶效应”2025年2月推出的Manus。它号称是“世界首款通用Agent”。在演示资料中,Manus可以独立思考、计划并执行复杂任务。然而,一些用户注册使用后发现,它无法有效执行很多复杂任务。

由于产品不成熟,Manus网页访问量一直在下滑。国际流量分析平台SimilarWeb数据显示,2025年3月Manus访问量高达2310万,4月下滑到1784万,5月下滑到1616万。

“拿Manus做一个贪吃蛇游戏,任务总是执行到一半出错,还无法手工调代码。更多专业代码工具可以更好完成这个任务。”傅盛今年3月对《财经》表示,Agent被过度包装了,Muti-Agent应用还不够成熟。但他同时承认,Agent是未来,它就是AI时代的App。

杜克大学电子与计算机工程系教授陈怡然的观点是,创业公司为了获取市场关注拿到下轮融资,先推不成熟产品是常规打法。OpenAI就是拿到融资后再打磨产品,并实现商业化。

Single-Agent更像AI助手,Muti-Agent却不够成熟。这个问题也困扰着很多企业。

IBM大中华区科技事业部数据与人工智能资深技术专家吴敏达在一次媒体采访中表示,不少企业客户困惑,很多Agent可能不是真正的Agent,只能看作是AI助手。他提到两者一个核心区别——Agent能“自主决策”,能调用API(应用程序接口)或者其他工具规划任务。AI助手虽然有AI能力,但是不能自主完成工作。

目前人们熟悉的大多数对话应用,离真正的“自主决策”还很远。吴敏达解释,AI助手推理过程简单、流程固定、消耗算力很少,速度也比Agent快,甚至更准确。但是Agent会主动调用更多AI助手或工具,和其他工具合作完成任务。这个过程会消耗更多算力,做好Agent的门槛会更高。

他同时认为,Agent和AI助手的定义不重要。AI助手始终会存在,而且AI助手未来在企业软件中的可能比Agent更高。解决企业真正的问题,保证任务准确率才是根本。企业也没必要追求通用型Agent,用一个通用Agent解决企业所有问题,这没有意义。

Agent的能力,是它背后的“大脑”——大模型的能力决定的。Muti-Agent应用暂时不成熟,根本原因是目前大模型的准确率、逻辑推理能力,尤其是对复杂任务的理解和规划能力还不够高。一种判断是,这种局面会在2025年底得到很大程度的改善。

火山引擎智能算法负责人、火山方舟负责人吴迪今年5月曾对《财经》表示,未来12个月,大模型的能力还会不断提升,有三个提升方向。

其一,多模态(文本+图片+音频+视频)推理模型会成为主角,这是当下正在发生的变化。AI将可以把文本、图片、音频、视频等多种信息融合在一起进行综合推理。它将极大增强Agent对现实世界复杂信息的理解能力。

其二,视频生成模型将成熟可用,预计今年末将迎来一轮爆发。这意味着Agent不仅能理解世界,还能以更动态、更直观的方式生成内容和模拟过程。

其三,多步骤的复杂任务处理能力会大幅提升,预计今年末会有重大突破。这是Agent走向成熟的关键一步。当模型能够稳定、可靠地规划和执行包含数十步甚至上百步的复杂任务时,Agent“烂尾”的问题将从根本上被解决。

在吴迪看来,目前大部分Muti-Agent应用都“像是玩具”,但基于这三条技术主线的突破,他给出了最终判断——Muti-Agent应用2025年末准确率将会大幅提升。届时,Agent应用会有一轮爆发。

02 Agent正在改变什么?

Agent看不懂、不成熟,这却不影响它正在成为大公司、创业者涌入的新兴赛道。它也的确带来了眼花缭乱的变化。

GPTDAO是美国硅谷的一个生成式AI社区,长期追踪各Agent网页流量变化趋势,定期发布AIwatch.ai数据分析榜单,它会针对AI To C(面向消费者的AI应用)类产品统计其用户规模、网页访问、融资规模。该社区近期的一份针对AI Agent的统计显示,中国市场、国际市场的AI Agent产品的网页访问量正在大幅增长。

字节跳动、百度都是目前最有热情投入Agent的重要中国玩家。字节跳动的扣子、百度的文心智能体平台半年内访问量均增长超过200%;另外,国际知名的AI Agent平台N8n、LangChain用户访问大幅增长的同时,还分别取得了新一轮融资。

傅盛今年3月对《财经》表示,在这一波Manus爆火之前,硅谷的Agent创业就已经很热了。硅谷创业公司早就不卷模型了,都在卷Agent。他认为,Manus只是第一个产品,后面中国市场上会不断出现类似产品。

目前,面向普通消费者的Agent并不算成熟,但To B(面向企业)的Agent正在一些专业场景,显著提升企业的业务效率。

据陈怡然观察,美国大部分企业都在寻找AI提效的机会,开发“企业级专用Agent”蔚然成风,因为类似Manus这类通用Agent无法直接用在垂直行业。

为什么To B场景落地速度更快?核心因素是很多大型科技公司的IT基础设施很完善——一方面,很多企业内部已经做好了数据治理,Agent能够访问更多结构化的专业数据;另一方面,MCP(模型上下文协议,也可认为是AI应用接口)协议让Agent能和其他应用互动。它就像USB接口,让Agent用简单、标准化的形式去访问数据、使用其他工具。

AI编程就是一个典型的提效场景。软件工程领域,代码编写、调试、升级和维护一直耗时耗力,而AI编程类Agent,正在将这一过程的效率提升一个乃至数个量级。

百度文心快码高级经理彭云鹏甚至认为,“写代码是Agent当下落地最好的方向。”他介绍,把研发任务分配到Agent,把不同Agent协同,可以互相生成代码,并解决一些相对复杂的任务。前提是,确定好项目规范、研发规范、测试规范等研发规范,有了明确的规则后,AI生成代码就会遵从规范。

百度在6月23日的AI开放日上披露,百度内部由AI生成的代码所占比例逐年大幅提升。2022年这一数据仅为0.27%,2025年二季度这一数据超过43%。百度内部深度使用文心快码的工程师,代码提交量相较于不使用的工程师提升了近70%。

字节跳动技术副总裁洪定坤今年6月在一场发布会上透露,字节跳动内部,超过80%的工程师在使用自研的TRAE代码工具辅助开发,已有相当比例的代码是通过AI生成的。不仅是科技公司,AI编程在银行等传统行业渗透也很快。国内某大型商业银行开发中心的一位高级开发人员向《财经》透露,他所在的银行,现在有20%-30%的代码由AI生成。

一位医疗硬件创业公司的资深算法工程师认为,上述数据不夸张,目前他日常工作中,80%的代码都是AI生成的。他向《财经》演示,如何使用AI代码生成工具Cursor调用Claude Sonnet 4模型生成并修改一款网页游戏的全过程。在演示过程中,Cursor运行Agent仅用一分钟就生成了三个文件,并最终在网页上跑起了贪吃蛇游戏。

这款贪吃蛇游戏,画面虽然简单,但是游戏规则均是AI制定的,且只使用Single-Agent就完成了整个开发过程。在这个过程中,人没有手动介入修改过代码。

更复杂的代码项目,可以让Agent规划任务清单,将项目拆解成若干大任务,再把大任务拆解成小任务。最后按照任务清单稳扎稳打,一步步执行、测试。这种方式便于人类工程师掌控任务执行进度,而且出现问题时能及时干预,确保任务质量。

上述资深算法工程师表示,在日常工作中,“只要掌握正确的工作流,通过对话就可以搞定所有代码”。

贪吃蛇游戏只是一个小案例。更多代码工程领域,AI代码生成Agent正被广泛使用。

一位亚马逊AWS中国区人士介绍,亚马逊一个五人团队今年在两天内成功将超过1000个生产应用从Java 8(Java编程语言的一个主要版本)升级到Java 17。平均每个应用只花了10分钟。过去这样的升级通常需要两天到三天。

Agent代码生成工具可以节省成本,还能让人从繁琐工作中解放出来,专注于创造性工作。它还让代码开发从少数程序员才会的技能,变成很多没有代码基础,但有想法、有创意的人也能使用。

高伟翔在中央美术学院学习产品设计。今年5月,没有任何编程经验的他,利用字节跳动的扣子空间在一个月内独立开发出了毕业设计作品“荒诞商品生成器”——一个可以根据用户情绪生成独特艺术图片的小程序。他对《财经》表示,“如果没有扣子空间,就需要外包给一些程序员去做。但现在我完全可以自己做,开发成本、可控性都更高。”

写代码仅仅只是一个场景。上述亚马逊AWS中国区人士介绍,未来Agent团队协同工作时,会有专注于特定领域的“专才”,也有能够处理各类任务的“通才”。

在一个公司内,这种协作模式将使得Agent能处理更为复杂的任务。例如,在处理一个复杂的业务分析项目时,会有专门负责数据收集的Agent、负责数据分析的Agent,以及负责报告撰写的Agent。它们协同工作,共同完成任务。

既然Agent能够快速、批量生成代码,那么它是否会取代人类工程师?

上述资深算法工程师的看法是,如果开发需求不增长,就不需要这么多人类工程师。但代码供给能力增长的同时,市场开发需求也在增长,因此人类工程师人数仍能维持。除非AI能完全替代工程师。陈怡然表示,顶尖CS(计算机科学)工程师的需求还在,但普通工程师的需求已明显下降。今天美国就业市场,只懂基础编程语言便入职大厂的机会越来越少,一些高校正在重新审视CS人才培养思路。

03 软件商业模式将被革新?

Agent被认为是下一代应用——它也在革新软件的商业模式。

“看不懂”Agent,不仅是因为产品形态不清晰,更是因为从业者面对它,还要思考如何重新确定商业模式、定价模式。这些剧变同样使人困惑。

今年5月,旧金山的第三届红杉资本AI峰会中,红杉资本合伙人Pat Grady(帕特·格雷迪)面向150位全球顶尖AI创始人提出了一个观点:

AI卖的不是工具,而是收益。上一代SaaS(应用软件,或软件即服务)软件订阅付费逻辑正在被改变。客户不再为功能买单,而是为结果买单。

SaaS软件长期以来的经典定价策略是按年/月订阅付费。企业购买CRM(客户关系管理)、ERP(企业资源规划)等系统,需要为包含成百上千个功能的庞大套装软件支付一笔固定的订阅费。订阅付费的好处是,简单清晰而且订阅量、续费率稳定,企业可以按年/月拿到可预期的自由现金流。

但现实情况是,一个套装软件中可能70%的功能都是低频使用的,企业却要付出100%的费用。当一些Agent探索按实际用量付费时,订阅付费看起来成了一种臃肿、低效的模式。

Agent很轻,它是一种轻量级、原子化、插件化的应用,可以跑在钉钉、飞书或者浏览器等平台型软件上。它就像小程序,跑在微信、支付宝这些超级App上。这种“轻”的特性正在降低软件被使用的门槛。

Agent将臃肿的套装软件,“打碎”成一个个原子化的功能——按token(token是大模型的文本单位,一个token可以是单词、标点、数字、符号等)计费、按调用次数计费,或者更直接的“按最终效果付费”,正在成为Agent的商业模式。

软件的价值衡量标准,从拥有多少功能,变成解决了多少问题、带来了多少实际效益。因此,一些SaaS企业正在探索“订阅+用量”的混合定价模式。

销售易是腾讯旗下的CRM(客户关系管理)公司。销售易创始人兼CEO史彦泽今年3月曾对《财经》表示,销售易Agent产品的新定价模式是订阅基础软件基础上,再增加专属的“数字员工”。企业可以选择购买“销售助理Agent”,而企业管理者可以购买“NeoAgent平台”来搭建个性化的Agent。

具体收费方式是按“人头数”(座席)购买每个Agent的使用许可,同时设定算力消耗上限。这主要是为了控制token成本,避免因少数用户超量使用导致亏损。这种模式既能兼顾传统的订阅模式,又能有效管理Agent算力消耗带来的额外成本。

“Agent结合CRM,可能颠覆现有的CRM产品。”某CRM公司开发人员陈涛对《财经》表示,该公司已利用Agent成功改造自家产品,并已开始盈利。他认为,过去CRM公司更多注重于功能的丰富度。功能越多,定价越高。但Agent接入CRM之后,定价会偏向于结果付费,而不在于功能有多复杂。“未来定价模式可能变成,维护多少个客户关系,就收多少钱。”

一些没有历史包袱的创业者采取了更激进的策略。

图灵集市是一家跨境电商领域的AI创业公司。图灵集市创始人田逸豪对《财经》介绍,他和团队开发了一个“AI网红营销Agent”。他们直接拥抱了“按结果付费”这种新模式。田逸豪发现Agent最大的吸引力,在于效果交付。

过去,中小跨境电商寻找海外网红带货,极其依赖人力。他们使用的SaaS软件费用高,无法智能追踪网红。这类软件往往需要雇佣多人配合使用,一个星期建联30位网红,已经算极限。

田逸豪提到,他们现在开发的网红营销Agent,可以自动匹配合适的网红,用算法生成个性化话术发送邮件进行建联和合作。这全程由AI主导,只有在报价、寄送样品等关键节点需要人工审核,一人即可负责跑通全部流程。

“效果交付”成为他们的主打卖点。由于中小卖家注重转化率且现金流紧张,图灵集市正在尝试两种收费策略。一是通过平台促成交易的GMV(商品交易总额)抽取1%-3%;二是根据使用效果进行付费(如每建联一个网红收取一定费用)。“以前没有AI,大家不敢这么喊。现在有AI了,我把结果卖给你,我再收你的钱。”田逸豪解释。

不过,面对“按结果付费”,也并非没有审慎的声音。

2024年11月,一位软件行业资深投资人曾在一场小规模讨论中提到一种担忧——按效果付费容易让软件公司彻底丧失定价主导权。

因为按效果尤其是按token消耗付费,本质是按成本定价,即“算清算力成本后,加上毛利再定价”。在他看来,这非常危险,因为模型和算力成本极其透明,且一直在快速下降。一旦客户接受了这种成本导向的逻辑,会时刻盯着上游大模型厂商的降价信息。软件公司在这个过程中容易沦为模型厂商的“管道”,只能赚取微薄的差价。

Agent之所以“看不懂”,是因为所有从业者正站在一场剧变之前。产品形态不清晰、定价模式不明确。此时,用旧的经验和框架,去思考一个新事物的未来,自然会面临困惑与不适。