大模型市场,直接来了一个「新物种大分叉」。
全球最大AI模型API聚合平台OpenRouter给出数据: 9号到15号这一周,中国大模型的调用量冲到了4.12万亿Token,第一次超过美国模型的2.94万亿Token。
调用量前五的模型里,中国直接占了四个:MiniMax的M2.5、月之暗面的KimiK2.5、智谱GLM-5、DeepSeek V3.2。
市场已经彻底分成两拨人:BAT正在「向内收缩」,把模型塞进搜索、电商、办公这些老业务里;新势力Kimi、智谱、MiniMax则「向外长手」,靠成百上千个Agent死磕开发者生态。
这是商业底层逻辑的彻底分家,大家都在算一笔名为投资回报率的生死账。
先得搞清楚一件事:这4.12万亿Token的调用量,到底是谁在用?
要光看新闻标题,肯定以为中国老百姓突然爱上跟AI唠嗑了;OpenRouter的用户构成很有意思,上面美国开发者占了47.17%,中国开发者只有6.01%。
这4.12万亿Token,主要是全球那帮程序员「用脚投票」投出来的,跟咱们在抖音刷到的那些AI聊天没啥关系。
所以,Token调用量比DAU实在多了,日活用户能被红包砸出来,能被春节营销堆出来,但开发者的API调用是真金白银在烧。
他们在生产环境里跑你的模型,写代码、做测试、跑任务,每一分Token背后都是算力成本,也对应着某种商业预期,没人会花钱跑没用的东西。
那全球程序员为啥突然疯狂调用中国模型?两个原因:性能能打 + 便宜到离谱。
MiniMax M2.5上线一周直接冲上调用量榜首,它在代码编写、搜索这些硬核领域的表现,已经能跟OpenAI和Anthropic的主力产品掰手腕。
Kimi K2.5更狠,能同时调度100个《Agent分身》干活,把复杂任务的效率干到3到10倍;智谱GLM-5带着200K的超长上下文窗口杀出来,专门给需要长时间跑的任务用。这些都是真家伙,不是凑合用的平替。
再说成本。这才是最狠的。咱们直接看数字:
算下来,中国模型成本只有海外巨头的1/10到1/20;这个价差直接把程序员的经济账给重算了。同样的任务,用Claude烧100块钱,用MiniMax可能5块钱就搞定了。
中国厂商凭啥能把价格打到这么低?核心是技术架构;大家都在用《混合专家》MoE架构,根据具体任务,只调用其中一小部分专家出来干活,这是工程效率的极致优化。
再加上阿里云这种平台,把四大顶级开源模型打包,推出7块9的首月订阅,直接把程序员的试错成本压到地板价。
问题来了:便宜就一定有人用吗?也不只是便宜,这就得说更深层的变化了:Agent场景爆发,让Token消耗的逻辑彻底变了。
Chatbot那会儿,用户问一句模型答一句,Token消耗是线性的;现在智能体开始落地,事情复杂了,Agent接到一个任务,每一步都在《脑子里反复推演》。
这种《推理密度》增加,让单次任务的Token消耗呈指数级上升;中信证券算过,智能体执行任务时,整体Token消耗可能提升十倍以上,对应的算力需求得涨百倍以上。
OpenRouter的数据也证实了这点:
平台上超过70%的Token消耗,来自互联网大厂、中大型企业、专业程序员的生产环境;在100K到1M Token这个区间,也就是智能体工作流最典型的消耗区间,MiniMax M2.5的调用量遥遥领先。
所以,这波Token爆发是真需求还是假繁荣?
我的判断是:真需求,它证明了中国这帮新玩家在《手和脚》的战略方向上,确实踩中了全球程序员的真实痛点。
用顶级的性能加地板的价格,去满足正在爆发的Agent需求,程序员用Token投了信任票。
但这只是开始。Token怎么变成钱?
智谱三年半亏了62个亿,MiniMax三年零三个季度亏了13.2亿美元(差不多95亿人民币),而且,算力成本占研发开支的70%到80%。这是什么概念?
每赚1块钱,要付出5块多的算力成本。典型的越卖越亏。新玩家们必须回答一个问题:怎么让客户为价值付费?
答案指向同一个方向:按效果付费。行业里管这个叫RaaS,Results-as-a-Service。
什么意思呢?我打个比方:
Token是什么?算力的计量单位,客户花钱买AI服务,真正想要通过一次审核、减少一次拒付、多一笔订单。
现在API定价,偏偏挂在Token上;这就好比你请人搬砖,最后按他流了多少汗收费;汗流得多不一定砖搬得多,砖搬得多也不一定汗流得多,这账能算明白吗?
有点类似于,把油门直接接到里程表上;是为车真正跑了多远付费;油门踩得再狠,车没动,不收钱;车跑了10公里,就收10公里的钱。
智象未来CTO姚霆有句话我印象挺深:
商业模式创新,是从售卖API提升到售卖结果。以前B端C端都是积分制,本质是把价值折算成积分,现在大家开始探索按照结果来付费。
这逻辑一换,整个行为系统都变了。
当价格挂在Token上,模型厂商的团队会拼命追求更短的提示词、更多的缓存命中,因为这样能降低成本;但当价格挂在结果上,团队自然会去追更高的通过率、更高的转化率,因为只有结果好了才能收到钱。
一个是向内控成本,一个是向外创价值,两条路,走着走着就分叉了。
这么做哪些场景先跑通了?
先说电商直播。这块走得最快。中科深智做的AI直播全托管,从投流素材生成到AI直播转化全包了,企业可以零成本开播,最后按GMV分成。
什么叫GMV分成?卖出去的东西里抽个点。卖不出去,不收钱。
他们透露了一个有意思的数据:AI直播跟头部IP主播比确实还有差距,但在素人直播这个层级,已经比真人强了。有个客户,某电商公司,跟大MCN机构合作的时候日均GMV大概15万左右。
同等投流ROI的情况下,AI直播能做到这个数的40%到50%,同时人力成本省了70%以上;同样的投放预算,产出打对折,成本省七成,这账怎么算都划算。
再说金融营销。这个试得也挺激进。
我看到一个案例,蚂蚁数科推了个智能托管模式,银行只管给业务目标、预算和客群,剩下的全交给智能体自己玩;投什么渠道、出什么素材、怎么平衡ROI,全是AI自己调。最后按交易规模增长的千分之二到千分之四收费。
有意思的是,现在合作金融机构里,区域性银行占了三分之二。为什么?
因为大行有自己的技术团队,什么都想自己干;区域性银行没这条件,反而更愿意接受交钥匙工程,你给我结果就行,过程我不关心。
工业领域也有尝试,但更谨慎一些。设备预测性检修、节能优化这些场景,有人开始按实际节能效果收费。
中工互娱的智振说得挺实在:小单点项目几万到几十万,可以按效果收费;但大额复杂项目,几百万上千万那种,因为效果太难衡量了,暂时还是传统模式。这也合理,客户不敢赌,厂商也不敢赌。
说到这儿你可能想问,那为什么是现在才火起来?
我琢磨着有两个原因。一个技术真的能打了,另一个是采购主体变了。
以前卖软件,通常科技部门负责买,科技部门的人不背业务结果的KPI,现在业务部门开始直接参与采购,营销部买AI是为了多获客,财务部买AI是为了降成本,他们天然就愿意为可量化的增长付费。
现在到了一定的临界点。但你可能会说:按效果付费这么美好,那赶紧全换啊。
最大的问题是效果归因。
企业业务增长是市场、运营、产品一堆因素共同作用的结果,目前用一套工作流、一个Agent还没办法拆分到各部门。
也就说,运营说是因为我搞了波活动,市场说因为我投了广告,AI说是因为我的智能体优化了转化率,到底谁的功劳?怎么精确算出AI贡献了多少?
目前行业没有统一标准,基本只能一事一议。
前几天,销售易徐曦举了个例子:CRM全链条上,按结果付费的点其实很多;线索转化了可以付费,商机成交了可以付费。
以前产品设计把功能全打包在一起,没法拆开算;现在想改成按结果付费,得重新包装SKU,重新设计定价模型,甚至重新签合同。这是整个商业逻辑的重构。
还有责任划分、效果量化,全是坑。更要命的是,按效果付费,厂商得先垫钱。AI跑起来要烧算力,Agent干活要时间,最后效果没出来,一分钱收不到。这对现金流是巨大的考验。
一边是客户愿不愿意为《可能有效果》买单,一边是厂商扛不扛得住《先干活后收钱》的账期。两边都在赌。
按效果付费这条路,确实有人在走了;电商直播、金融营销、招采审查,都跑出了一些样板间。对于新玩家来说,这条路必须走,因为卖Token的账,不太行。
那这笔账到底能不能算平?什么时候算平?规模经济拐点在哪?
兴业证券的研报提到一个概念叫「杰文斯悖论」。啥意思?当一项资源的价格下降时,它的使用量反而会增加,最终总消耗不降反升。
过去三年,主流模型的单位Token推理成本降了99%以上。听着是好事吧?成本低了,利润空间大了。但结果呢?
调用量暴涨,算力总账单越滚越大。这就像超市搞促销,打折了,买的人多了,最后花的总钱反而比不打折的时候还多。
海豚投研算过一笔更宏观的账:
2026年主流芯片设计商的收入预期是3700亿美元,对应的云计算中心资本开支是6400亿。这6400亿要在5年内摊销完,云厂商得靠这些算力创造出1.2万亿美元的收入才能回本。
再往下游推,最终用户得靠AI创造出2.4万亿美元的经济价值,相当于美国GDP的7.5%。这个账,能算平吗?
黄仁勋倒是特乐观。
他说「算力即收入」,认为AI已经到拐点了,企业对智能体的采用率正在激增。英伟达最新的财报也确实亮眼,Q4营收681亿美元,同比增长73%,数据中心贡献了90%以上。
但市场反应很有意思:财报发布后,英伟达股价先涨4%,然后转跌。这犹豫是对「下一步往哪走」的重新定价。
为什么犹豫?
因为算力需求的逻辑正在变。以前大家抢训练芯片,训练是一锤子买卖,看谁的算力堆得高。现在风向转到推理了,推理是持续性消耗,看的是单位Token的成本、能效、场景适配度。
这个转变意味着什么?门槛降低了,竞争格局可能要变了。
英伟达最核心的几个云巨头客户,现在都在两条腿走路:一边继续买英伟达的标准GPU,另一边疯狂搞自研,或者扶持第三方做专用推理芯片。
微软、亚马逊、谷歌、Meta四家云厂商2026年的资本支出加起来接近7000亿美元,这么大个蛋糕,没人愿意让一家全吃了。
那再回到咱们关注的中国新玩家。他们算力账长什么样?
首都在线是智谱的核心算力供应商,庆阳、宿迁、天津的GPU集群一直在扩;弘信电子在打通东数西算的通道,绿色算力直供智谱、百川智能。
润泽科技搞的大规模智算中心,支撑字节跳动的万亿级Token吞吐,这些都在卡位低成本算力枢纽。
但问题没变:算力成本占研发开支的70%到80%,这是实打实的。每赚1块钱,要付出5块多的算力成本。什么时候,这个比例能降到50%以下?什么时候算力成本能被收入追上?
这才是规模经济的拐点。
有人可能会说,成本不是一直在降吗?对,单位成本在降,但调用量涨得更快。前面那个「杰文斯悖论」说的就是,便宜了,用的人多了,最后花的总钱反而更多。
对AI公司来说,这是「越卖越亏」的数学本质。
黄仁勋说「计算需求呈指数级增长」,这话没错。但指数增长的是收入还是成本,决定了谁能活下来。
所以,算力成本的吞噬效应,是这帮新玩家最大的财务风险;按效果付费跑通了客户愿买单的逻辑,但没解决厂商「先干活后收钱」的现金流压力。
换句话说,规模经济的拐点取决于另一个指标:每花1块钱算力,能收回多少钱。这个比例什么时候能超过1,什么时候规模经济才真正兑现。
谁能先从泥潭里爬出来?
就看接下来一两年,谁能在更多场景里跑通效果付费,谁的单位Token创造的价值最高。这才是那笔「生死账」的最终答案。
