IBM专家:企业级智能体规模化依赖专用模型,智能体「Shopify时刻」尚未到来
7 小时前 / 阅读约14分钟
来源:36kr
IBM专家讨论AI智能体技术发展现状与未来,认为消费级智能体短期难爆发,需解决可靠性、成本效益和基础设施问题。未来智能体竞争力在于流程可复制与成本效益。

近日,IBM的视频播客节目《专家汇》(Mixture of Experts)推出了一期“2025—AI智能体元年?”特别节目,主持人Tim Hwang与三位IBM专家:工程师Chris Hay、AI开放创新项目总监Lauren McHugh Olende以及核心AI及Watsonx.ai副总裁Volkmar Uhlig,共同分享了有关AI智能体技术发展的现状与未来的看法。值得一提的是,IBM(IBM.US)今年以来股价上涨41.2%,这一涨幅跑赢了纳斯达克综合指数15.2%、标普500平均13.2%的涨幅。目前IBM市值约2829亿美元,2025Q3营收增长9%达163亿美元,其中基础设施板块营收增速达17%。

三位专家在讨论中认为:

首先,消费级智能体短期内难以爆发,难以直面普通用户。现有技术尚无法稳定处理真实世界中复杂、长链条的任务。另外,从智能体原型开发到大规模部署,这之间存在着巨大的鸿沟,短期很难有一个能够极大降低门槛、让非技术用户也能轻松创建和部署智能体的平台化解决方案。

第二,“自然语言-智能体”交互方式能否完全绕过传统开发模式?

Volkmar Uhlig的观点是,终极的大众化将是“自然语言到智能体”的直接转换。当用户能够直接用自然语言描述复杂任务,而AI能自动将其转化为可运行的智能体时,才意味着智能体技术真正大众化。这在一定程度上可以绕过当前需要开发者介入的复杂框架搭建。

但Chris Hay从实践角度对此提出了警示,直接赋予大型语言模型过多工具调用权限极易导致其行为“脱轨”。因此在可预见的未来,一个可靠的智能体系统仍需依赖规划模块(Planner)来制定并严格执行步骤,将模型的开放性创造力与任务的确定性要求结合起来,这本身就需要精心的工程设计,而非简单的自然语言指令所能完全替代。

第三,智能体从概念验证发展到规模化部署,需要解决的问题是什么?

嘉宾的讨论指向了三个层面:1.可靠性与控制:确保智能体在复杂环境中可靠执行计划而不“脱轨”或产生幻觉,需要成熟的框架和“护栏”技术。2.成本效益:Volkmar Uhlig特别强调,智能体要取代人工或处理此前无法完成的工作,必须实现成本的指数级下降。而当前其应用仍局限于高价值、高可控性的任务。3.基础设施与生态:需要出现能够简化部署、运维和监控的“智能体云平台”,以及可能出现的专门用于规划的优化模型,以降低对昂贵前沿模型的依赖。

对于未来的智能体企业格局,Lauren McHugh Olende认为当前智能体构建如同十年前的定制化AI模型——每次都需要从头开始。未来的突破可能在于出现可重复使用的“基础智能体”,或者某个公司通过深耕某一具体用例(如同AWS从自身需求出发),最终抽象出通用平台。

Volkmar Uhlig则指出,主导权可能取决于两大核心能力:谁能在模型层面提供最佳的推理与规划能力,以及谁能在基础设施层面实现极致的成本优化,使智能体能力无处不在。

以下为「明亮公司」编译的部分访谈内容:

主持人:Lauren,我常调侃,面向消费者的智能体演示几乎千篇一律——只要说一句“帮我安排旅行”,再按一次按钮,机票、酒店、行程便瞬间订好。Volkmar 的观点是,这类场景距离现实还很遥远,甚至可能永远不会以这种形式出现。你认为我们最终能否抵达如此“一键式”的消费级体验?

又或者,正如Volkmar所暗示,由于需要封装过多细节,智能体只能隐于幕后,而无法直接面向用户?我想听听你对“智能体离普通消费者还有多远”的判断。

Lauren McHugh Olende:若把大语言模型(LLM)的发展当作参照系,这条路径会变得更清晰。2017年,Transformer论文问世;2018年,BERT与GPT-1相继发布;直到2022年,ChatGPT才以网页和移动应用的形式真正走进大众手中。由此可见,从“实验室突破”到“人人可用”,LLM用了大约四年。

智能体目前所处的阶段,更像是2018年的LLM——已走出纯研究范畴,却尚未出现类似ChatGPT的“杀手级”封装(把智能体做成了简单即用的产品)。我们手里只有一些“BERT级”的演示,可以验证概念,但还不足以让非技术用户随手使用。于是,核心问题变成了:智能体是否也需要四年才能普及?抑或,因为资本、算力和关注度都比当年充裕,时间会被压缩得更短?反之,如果智能体比LLM更复杂、更难工程化,周期反而可能拉长。

消费级智能体或受困于自然语言交互瓶颈

主持人:的确,AI领域的聚光灯效应会加速下游创新。但另一个变量是“开发门槛”。Volkmar 刚才提到,让智能体真正跑通仍需大量脏活累活,这意味着能参与其中的团队有限。假如我们可以把“构建-部署-托管”全流程大幅简化,进步速度就会快得多。能否概述一下当前开发者生态的现状,并指出制约其成熟的关键瓶颈?

Lauren McHugh Olende:如果你想先试试创意,现在当开发者挺有意思的。在无代码层面,借助LangFlow的可视化编排能力,用户仅需通过拖拽组件即可构建智能体,从而避免在编写大量代码后才发现数据缺失或模型语义理解偏差的风险。

再往专业代码走,LangChain、LangGraph、CrewAI、AutoGen、Semantic Kernel你都可以选择,有的封装得高、上手快,有的给你全部控制权——只要想实验,工具箱已经摆在那儿。

但真正的头疼在“搬出去”。如果你想在现实中部署它、把它带出那个受到严格控制、有非常精确指定用例的环境,让你的朋友、真实用户也能点开,工作要复杂得多:你得给智能体逻辑找托管的地方,还得再搭一套环境跑大模型的推理服务,然后再把两套系统集成在一起。眼下几乎没有“一键搞定”的现成方案,部署、扩容、分享都得自己完成技术栈的搭建,这才是最难的部分。

Volkmar Uhlig:我认为这正是阻滞其普及的原因之一。眼下我们还没有那种“拿来即用”的智能体解决方案。真正的“Shopify时刻”尚未到来——在那个节点,任何一个小商家只需说一句“嘿,给我个智能体”,它就能马上跑起来。

我们IBM内部已在做一些试验:把流程和业务描述直接从自然语言转成LangFlow可执行文件。一旦达到“用自然语言描述问题就能自动生成智能体”的程度,而使用者无需任何编程知识,它就能走向大众。到那时,人们可以在手机上随口说“我到家时让灯亮”,系统便立刻生成对应的自动化逻辑,而不必自己去搭建流程。

现在的界面本质上还是“baby programmer interface”——给会写代码的人用的初级工具,所以普通消费者不会碰。既然业务逻辑可以用自然语言讲清楚,而大模型已足够聪明去补全细节,我们就该把“英语→智能体”做成像今天的“英语→代码”一样成熟。一旦实现,智能体就会迎来大众可消费的时刻。但目前的接口仍是面向程序员,不是面向消费者。

主持人:没错。这个愿景几乎绕过了“是否还需要庞大开发者生态”的问题,听起来很有意思。

Volkmar Uhlig:显而易见,历史模板就是Shopify。2000年代初,人们惊呼“原来可以在互联网上跑自己的服务器”,于是有人靠它做成十亿美元公司;随后Shopify出来说“我们把它大众化了”。智能体领域还没到这一步——它仍是高科技,没有大众化。但只要有人把整套流程封装成“一键即用”,复杂度下降10倍甚至100倍,市场就会像野火一样铺开。关键在于:智能体的“Shopify时刻”还没到来,而谁先做到这一点,谁就能点燃全局。

生产级别智能体需要先规划后执行,及确定性框架

主持人:在这两种路径之间似乎存在一些抵触。一种是Volkmar你说的“自然语言生成智能体”。如果我们把它做得非常好、非常强大,那么在某种程度上你几乎不需要构建很多像Lauren所说的那种部署的基础设施。

Chris,现在有很多构建智能体原型的方法,但一旦你想做任何更复杂的事情或扩展它,就很困难。你是否觉得目前需要什么来让这方面成熟起来?我们还在等待那些能实现这一点的公司和平台吗?

Chris Hay:是的,我认同这一观点。从概念验证(POC)或最小可行产品(MVP)走向规模化之所以困难,在于消费者行为难以预测。一旦想把大模型直接面向消费者,就必须为其加装“护栏”——要么引入防护模型,要么辅以确定性流程,确保其不偏离轨道。

正如Volkmar提到的“文本转规划”,目前主流工具(如Claude Code、Cursor、Windsurf 等)都内置了规划器:遇到复杂请求时,先由规划模块生成执行计划,模型再按部就班地完成任务。年初提到的Manus也是如此——任务先经规划智能体拆解,再由执行智能体逐条落实。

这种“先规划、后执行”的设计是必要的。若一次性给大模型开放数百个工具,它往往会“见工具就用”,极易失控。以Kimi k2为例,其支持连续调用两三百个工具,能力虽强,却常因“什么都想调用”而偏离主线,最终脱轨。

即便已有执行计划,模型也可能依赖自身记忆、跳过工具调用,或忘记更新进度,仅凭“感觉”给出答案,导致幻觉。换言之,它会在未经查证的情况下自信地输出结果,造成错误累积。

因此,当系统需要严格按步骤执行时,必须引入确定性框架,防止模型跳步或漏步。然而,这类生产级框架目前仍需开发者自行搭建,并非开箱即用。未来,若智能体要大规模落地,这些框架必须被集成到平台或下沉到模型层,才能真正降低使用门槛。

未来智能体竞争力在于流程可复制与成本效益

主持人:在最后几分钟,我想谈谈我们一直在讨论的技术上需要发生什么才能让2026年成为真正的“智能体之年”。我的问题是,从平台的角度来看,智能体领域的赢家会是AI领域的赢家吗?会是OpenAI、Anthropic这类前沿模型商,还是手握算力与渠道的云巨头?谁处于有利地位?

Volkmar Uhlig:要回答谁更有可能是赢家,先得厘清两层难题。

第一层是“用什么模型”。Chris刚才提到,现有大模型一旦拿到几百个工具就极易脱轨——我曾让模型调用某API,API返回异常,它竟自行写个空stub并宣布“任务完成”。想避免这种“什么都不做也算成功”的幻觉,目前只能依赖那些前沿模型的稠密推理能力,成本自然居高不下。我认为明年可能会看到人们专门构建“规划模型”,它就专注于一件事——把规划做对,当然底层还要有模型来执行计划且不脱轨。目前我认为我们还没做到这点。

所以我觉得前沿模型是目前唯一的出路,也伴随着巨大的成本。我们会看到更小的模型专责规划。

第二个问题是“如何执行、在哪里执行”。我的信念,也是我们的产品理念,是“AI无处不在”。并非把所有H100或H200堆在数据中心就万事大吉;智能体将遍布手机、边缘设备、云侧和本地数据中心。

关键是谁先让智能体做到“成本可负担”。今天,葡萄牙的许多商业流程仍靠人工逐条完成,我们希望智能体接手这些重复劳动,让人去做更高价值的工作;同时,把智能体部署到那些原本无人处理或原本做得不好的环节,提供更多服务选择。这本质上是一场成本优化竞赛。

因此,底层需要一整套高效运行的基础设施,把单任务成本压低10-100倍。现阶段,智能体只敢用在高价值、劳动密集且场景封闭的可控环节——我能同时让几千人干活,也能在后台放一个可观测的智能体。一旦模型更强大、成本更低,智能体就会像水电一样无处不在。

主持人:我赞同这种市场切分方式:一边是让前沿模型公司把“智能体能力”内生化,另一边是围绕成本效率诞生的全新生态。前者固然可能涉足后者,但两者的商业逻辑和玩家或许完全不同。Lauren,你如何判断未来智能体市场的格局?会出现一个万能模型一统天下,还是其他形态?

Lauren McHugh Olende:谁能率先把流程做成“可复制”,谁就能赢。今天的智能体构建像极了十年前的传统AI——很酷,却要每次从零开始:想预测教育结果,就得找数据、专项训练、微调、打包;换一件事,整套流程重新来过。智能体更痛苦,因为它的“重新来过”不只是写代码,而是反复调试自然语言提示——要让模型偶尔调用工具、偶尔不调用,还要以更高质量的方式调用。

传统AI的拐点来自基础模型:一个大规模预训练模型因为见多识广,可以胜任多种任务。倘若我们也能定义出类似的“基础智能体”,把通用规划与执行能力一次性预置好,后续只需微调或配置即可适应不同场景,就能省去每次从零搭提示的磨损。这才是让智能体市场从手工作坊走向平台规模的关键。

主持人:那么,你认为最终胜出的仍会是今天的头部玩家吗?只要他们把模型再打磨打磨,就能摇身变成“基础智能体”平台?

Lauren McHugh Olende:我反而觉得,它不会是某个单一模型,而是多模型的编排,外加一些限制和控制机制。至于是现有领导者,还是一匹黑马,我现在无法判断。可能出现的路径是:有人先做一个非常具体的智能体,只解决一件事,却做到极致;随后把其中的模块、代码或架构复用到第二个、第三个场景,就像AWS最初只为内部电商服务,后来发现整套云基础设施也能对外支撑无数业务。

所以,我认为有一类玩家专注于做好一个用例,最初他们可能因为“只用AI做一件事”而被低估,但他们一旦找到可重复的扩展模式,反而可能演化出最像平台的产品。