给AI装上手和脚，这账能算平吗？ - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

给AI装上手和脚，这账能算平吗？

2026-02-27 / 阅读约13分钟

来源：36kr

中国大模型调用量首超美国，全球程序员青睐中国模型因其性能强且成本低。新玩家面临算力成本高问题，探索按效果付费模式，部分场景已跑通，规模经济拐点取决于单位算力收益。

大模型市场，直接来了一个「新物种大分叉」。

全球最大AI模型API聚合平台OpenRouter给出数据： 9号到15号这一周，中国大模型的调用量冲到了4.12万亿Token，第一次超过美国模型的2.94万亿Token。

调用量前五的模型里，中国直接占了四个：MiniMax的M2.5、月之暗面的KimiK2.5、智谱GLM-5、DeepSeek V3.2。

市场已经彻底分成两拨人：BAT正在「向内收缩」，把模型塞进搜索、电商、办公这些老业务里；新势力Kimi、智谱、MiniMax则「向外长手」，靠成百上千个Agent死磕开发者生态。

这是商业底层逻辑的彻底分家，大家都在算一笔名为投资回报率的生死账。

01

先得搞清楚一件事：这4.12万亿Token的调用量，到底是谁在用？

要光看新闻标题，肯定以为中国老百姓突然爱上跟AI唠嗑了；OpenRouter的用户构成很有意思，上面美国开发者占了47.17%，中国开发者只有6.01%。

这4.12万亿Token，主要是全球那帮程序员「用脚投票」投出来的，跟咱们在抖音刷到的那些AI聊天没啥关系。

所以，Token调用量比DAU实在多了，日活用户能被红包砸出来，能被春节营销堆出来，但开发者的API调用是真金白银在烧。

他们在生产环境里跑你的模型，写代码、做测试、跑任务，每一分Token背后都是算力成本，也对应着某种商业预期，没人会花钱跑没用的东西。

那全球程序员为啥突然疯狂调用中国模型？两个原因：性能能打 + 便宜到离谱。

MiniMax M2.5上线一周直接冲上调用量榜首，它在代码编写、搜索这些硬核领域的表现，已经能跟OpenAI和Anthropic的主力产品掰手腕。

Kimi K2.5更狠，能同时调度100个《Agent分身》干活，把复杂任务的效率干到3到10倍；智谱GLM-5带着200K的超长上下文窗口杀出来，专门给需要长时间跑的任务用。这些都是真家伙，不是凑合用的平替。

再说成本。这才是最狠的。咱们直接看数字：

MiniMax M2.5：输入0.3美元/百万Token，输出1.1美元
智谱GLM-5：输入0.3美元，输出2.55美元
Claude Opus4.6：输入5美元，输出25美元

算下来，中国模型成本只有海外巨头的1/10到1/20；这个价差直接把程序员的经济账给重算了。同样的任务，用Claude烧100块钱，用MiniMax可能5块钱就搞定了。

中国厂商凭啥能把价格打到这么低？核心是技术架构；大家都在用《混合专家》MoE架构，根据具体任务，只调用其中一小部分专家出来干活，这是工程效率的极致优化。

再加上阿里云这种平台，把四大顶级开源模型打包，推出7块9的首月订阅，直接把程序员的试错成本压到地板价。

问题来了：便宜就一定有人用吗？也不只是便宜，这就得说更深层的变化了：Agent场景爆发，让Token消耗的逻辑彻底变了。

Chatbot那会儿，用户问一句模型答一句，Token消耗是线性的；现在智能体开始落地，事情复杂了，Agent接到一个任务，每一步都在《脑子里反复推演》。

这种《推理密度》增加，让单次任务的Token消耗呈指数级上升；中信证券算过，智能体执行任务时，整体Token消耗可能提升十倍以上，对应的算力需求得涨百倍以上。

OpenRouter的数据也证实了这点：

平台上超过70%的Token消耗，来自互联网大厂、中大型企业、专业程序员的生产环境；在100K到1M Token这个区间，也就是智能体工作流最典型的消耗区间，MiniMax M2.5的调用量遥遥领先。

所以，这波Token爆发是真需求还是假繁荣？

我的判断是：真需求，它证明了中国这帮新玩家在《手和脚》的战略方向上，确实踩中了全球程序员的真实痛点。

用顶级的性能加地板的价格，去满足正在爆发的Agent需求，程序员用Token投了信任票。

02

但这只是开始。Token怎么变成钱？

智谱三年半亏了62个亿，MiniMax三年零三个季度亏了13.2亿美元（差不多95亿人民币），而且，算力成本占研发开支的70%到80%。这是什么概念？

每赚1块钱，要付出5块多的算力成本。典型的越卖越亏。新玩家们必须回答一个问题：怎么让客户为价值付费？

答案指向同一个方向：按效果付费。行业里管这个叫RaaS，Results-as-a-Service。

什么意思呢？我打个比方：

Token是什么？算力的计量单位，客户花钱买AI服务，真正想要通过一次审核、减少一次拒付、多一笔订单。

现在API定价，偏偏挂在Token上；这就好比你请人搬砖，最后按他流了多少汗收费；汗流得多不一定砖搬得多，砖搬得多也不一定汗流得多，这账能算明白吗？

有点类似于，把油门直接接到里程表上；是为车真正跑了多远付费；油门踩得再狠，车没动，不收钱；车跑了10公里，就收10公里的钱。

智象未来CTO姚霆有句话我印象挺深：

商业模式创新，是从售卖API提升到售卖结果。以前B端C端都是积分制，本质是把价值折算成积分，现在大家开始探索按照结果来付费。

这逻辑一换，整个行为系统都变了。

当价格挂在Token上，模型厂商的团队会拼命追求更短的提示词、更多的缓存命中，因为这样能降低成本；但当价格挂在结果上，团队自然会去追更高的通过率、更高的转化率，因为只有结果好了才能收到钱。

一个是向内控成本，一个是向外创价值，两条路，走着走着就分叉了。

这么做哪些场景先跑通了？

先说电商直播。这块走得最快。中科深智做的AI直播全托管，从投流素材生成到AI直播转化全包了，企业可以零成本开播，最后按GMV分成。

什么叫GMV分成？卖出去的东西里抽个点。卖不出去，不收钱。

他们透露了一个有意思的数据：AI直播跟头部IP主播比确实还有差距，但在素人直播这个层级，已经比真人强了。有个客户，某电商公司，跟大MCN机构合作的时候日均GMV大概15万左右。

同等投流ROI的情况下，AI直播能做到这个数的40%到50%，同时人力成本省了70%以上；同样的投放预算，产出打对折，成本省七成，这账怎么算都划算。

再说金融营销。这个试得也挺激进。

我看到一个案例，蚂蚁数科推了个智能托管模式，银行只管给业务目标、预算和客群，剩下的全交给智能体自己玩；投什么渠道、出什么素材、怎么平衡ROI，全是AI自己调。最后按交易规模增长的千分之二到千分之四收费。

有意思的是，现在合作金融机构里，区域性银行占了三分之二。为什么？

因为大行有自己的技术团队，什么都想自己干；区域性银行没这条件，反而更愿意接受交钥匙工程，你给我结果就行，过程我不关心。

工业领域也有尝试，但更谨慎一些。设备预测性检修、节能优化这些场景，有人开始按实际节能效果收费。

中工互娱的智振说得挺实在：小单点项目几万到几十万，可以按效果收费；但大额复杂项目，几百万上千万那种，因为效果太难衡量了，暂时还是传统模式。这也合理，客户不敢赌，厂商也不敢赌。

说到这儿你可能想问，那为什么是现在才火起来？

我琢磨着有两个原因。一个技术真的能打了，另一个是采购主体变了。

以前卖软件，通常科技部门负责买，科技部门的人不背业务结果的KPI，现在业务部门开始直接参与采购，营销部买AI是为了多获客，财务部买AI是为了降成本，他们天然就愿意为可量化的增长付费。

现在到了一定的临界点。但你可能会说：按效果付费这么美好，那赶紧全换啊。

最大的问题是效果归因。

企业业务增长是市场、运营、产品一堆因素共同作用的结果，目前用一套工作流、一个Agent还没办法拆分到各部门。

也就说，运营说是因为我搞了波活动，市场说因为我投了广告，AI说是因为我的智能体优化了转化率，到底谁的功劳？怎么精确算出AI贡献了多少？

目前行业没有统一标准，基本只能一事一议。

前几天，销售易徐曦举了个例子：CRM全链条上，按结果付费的点其实很多；线索转化了可以付费，商机成交了可以付费。

以前产品设计把功能全打包在一起，没法拆开算；现在想改成按结果付费，得重新包装SKU，重新设计定价模型，甚至重新签合同。这是整个商业逻辑的重构。

还有责任划分、效果量化，全是坑。更要命的是，按效果付费，厂商得先垫钱。AI跑起来要烧算力，Agent干活要时间，最后效果没出来，一分钱收不到。这对现金流是巨大的考验。

一边是客户愿不愿意为《可能有效果》买单，一边是厂商扛不扛得住《先干活后收钱》的账期。两边都在赌。

按效果付费这条路，确实有人在走了；电商直播、金融营销、招采审查，都跑出了一些样板间。对于新玩家来说，这条路必须走，因为卖Token的账，不太行。

03

那这笔账到底能不能算平？什么时候算平？规模经济拐点在哪？

兴业证券的研报提到一个概念叫「杰文斯悖论」。啥意思？当一项资源的价格下降时，它的使用量反而会增加，最终总消耗不降反升。

过去三年，主流模型的单位Token推理成本降了99%以上。听着是好事吧？成本低了，利润空间大了。但结果呢？

调用量暴涨，算力总账单越滚越大。这就像超市搞促销，打折了，买的人多了，最后花的总钱反而比不打折的时候还多。

海豚投研算过一笔更宏观的账：

2026年主流芯片设计商的收入预期是3700亿美元，对应的云计算中心资本开支是6400亿。这6400亿要在5年内摊销完，云厂商得靠这些算力创造出1.2万亿美元的收入才能回本。

再往下游推，最终用户得靠AI创造出2.4万亿美元的经济价值，相当于美国GDP的7.5%。这个账，能算平吗？

黄仁勋倒是特乐观。

他说「算力即收入」，认为AI已经到拐点了，企业对智能体的采用率正在激增。英伟达最新的财报也确实亮眼，Q4营收681亿美元，同比增长73%，数据中心贡献了90%以上。

但市场反应很有意思：财报发布后，英伟达股价先涨4%，然后转跌。这犹豫是对「下一步往哪走」的重新定价。

为什么犹豫？

因为算力需求的逻辑正在变。以前大家抢训练芯片，训练是一锤子买卖，看谁的算力堆得高。现在风向转到推理了，推理是持续性消耗，看的是单位Token的成本、能效、场景适配度。

这个转变意味着什么？门槛降低了，竞争格局可能要变了。

英伟达最核心的几个云巨头客户，现在都在两条腿走路：一边继续买英伟达的标准GPU，另一边疯狂搞自研，或者扶持第三方做专用推理芯片。

微软、亚马逊、谷歌、Meta四家云厂商2026年的资本支出加起来接近7000亿美元，这么大个蛋糕，没人愿意让一家全吃了。

那再回到咱们关注的中国新玩家。他们算力账长什么样？

首都在线是智谱的核心算力供应商，庆阳、宿迁、天津的GPU集群一直在扩；弘信电子在打通东数西算的通道，绿色算力直供智谱、百川智能。

润泽科技搞的大规模智算中心，支撑字节跳动的万亿级Token吞吐，这些都在卡位低成本算力枢纽。

但问题没变：算力成本占研发开支的70%到80%，这是实打实的。每赚1块钱，要付出5块多的算力成本。什么时候，这个比例能降到50%以下？什么时候算力成本能被收入追上？

这才是规模经济的拐点。

有人可能会说，成本不是一直在降吗？对，单位成本在降，但调用量涨得更快。前面那个「杰文斯悖论」说的就是，便宜了，用的人多了，最后花的总钱反而更多。

对AI公司来说，这是「越卖越亏」的数学本质。

黄仁勋说「计算需求呈指数级增长」，这话没错。但指数增长的是收入还是成本，决定了谁能活下来。

所以，算力成本的吞噬效应，是这帮新玩家最大的财务风险；按效果付费跑通了客户愿买单的逻辑，但没解决厂商「先干活后收钱」的现金流压力。

换句话说，规模经济的拐点取决于另一个指标：每花1块钱算力，能收回多少钱。这个比例什么时候能超过1，什么时候规模经济才真正兑现。

谁能先从泥潭里爬出来？

就看接下来一两年，谁能在更多场景里跑通效果付费，谁的单位Token创造的价值最高。这才是那笔「生死账」的最终答案。

上一篇：DeepSeek发布下一代技术，北大实习生立功

下一篇：庞若鸣舍弃两亿美元投奔OpenAI，Meta究竟烂到什么地步了？

返回列表

热文阅读

2 天前

690万枚比特币恐被破解，2029年“量子末日”倒计时，银行卡、社交账号也面临风险

2 天前

OpenAI也开始恐惧自己训练出的新模型了

2 天前

OpenAI开撕Anthropic：300亿收入，80亿是造假

2 天前

吓破全球的最强AI大模型Mythos被指夸大：数千个漏洞徒有虚表

2 天前

龙虾让位，硅谷顶流AI「爱马仕」一夜闯进微信，冲上全球第一

14 小时前

英特尔，市值暴涨8000亿元

1 天前

AI裁员，裁到了“消费”这根大动脉？

1 天前

OpenAI遭叛将弑主，Anthropic是如何实现惊天逆袭的？

1 天前

吵了几个月，Linus终于拍板，Linux正式为AI代码“立法”：允许用AI，但锅必须人背

2 天前

从AI监管到内容生态重构：平台正在重新定价“真实”

上一篇：DeepSeek发布下一代技术，北大实习生立功

下一篇：庞若鸣舍弃两亿美元投奔OpenAI，Meta究竟烂到什么地步了？

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们