6月30号晚上,The Information 扔了一篇文章,标题挺唬人的:OpenAI 工程师找到办法,推理成本直接砍一半。
我认真读了一遍,核心意思就一个:OpenAI 的工程团队这个月跟同事透了底,推理成本降了超过一半。
怎么降的?没换新芯片,没搞架构革命;纯软件层面的事,把现有服务器的利用率给拧上去了。最有意思的是用在哪,ChatGPT 未登录用户的流量。
优化完之后,几百个 NVIDIA GPU 就搞定了,几百个。你品一品这个数。
ChatGPT 每天几亿人在用;光没登录那批访客,搁以前也得堆一堆算力来伺候,现在几百个 GPU 够了。
说实话,你但凡关注硬件的,看到这个数字,心里第一反应肯定会咯噔一下的,因为需求不得出问题了?
行,那来看看昨晚美股在干嘛;
AMD,涨超 7%,盘中创历史新高;Wells Fargo 把目标价从 505 美元拉到 615 美元。Cantor Fitzgerald 更狠,直接给 700。
你猜核心逻辑在哪?服务器 CPU;分析师预计 AMD 的服务器 CPU 营收 2026 年同比涨 68%。注意,同比 68%,不是「涨了一点」。
SanDisk,Bernstein 直接把目标价从 1700 美元干到 3000 美元。这只票今年涨了 781%,标普 500 年度第一,就是那个干存储的。
Bernstein认为,SanDisk 签了一堆长期内存协议,地板价锁在每 GB 0.29 美元;就算内存价格暴跌 72%,到 2030 年,每股盈利还能有 214 美元,暴跌 72% 都打不穿,你说这得多皮糙肉厚?
然后,昨晚美股台积电涨了 3%。Intel 涨超 7%。费城半导体指数涨超 3%。纳斯达克涨超 2%。
一边是 The Information 在那告诉你「算力可以砍半了,当心啊」;一边是华尔街抱着硬件股开香槟,杯子碰得叮当响。
这种小作文按理说应该直接把股市干跌的,是不是很矛盾?
其实一点都不矛盾,因为这也不是第一回了,我查了下,过去 18 个月,类似的「利空」至少来过四轮。每一轮,市场的反应都不一样。
拉一条线出来你就明白了。
第一次,2025 年 1 月 27 号。DeepSeek;这个你应该很清楚的,当时打的就是免费开源好用。
可知道当时硅谷在讲什么故事吗?他们说,训练一个前沿模型得烧几十亿美刀,得上万张顶配的GPU,得排队求着英子给你供货。
然后Deepseek一出来,这个故事被锤了一个窟窿。
我查了下,当天英伟达跌了17%,市值蒸发了 5890 亿美刀。5890 亿什么概念?比一整个强生公司蒸发了还多。
费城半导体指数跌了 9.2%,纳斯达克跌超 3%。博通跌 17%,Marvell 跌 19%,美光跌 11%;那天的标题清一色一个调子:中国用零头的钱干翻了美国几百亿的事,AI 硬件的逻辑要塌了。
然后呢?两天后开始反弹;11 个月后全部收复,NVIDIA 还创了新高。
第二次,今年的2月份,OpenAI 自己放的。
之前跟全世界说未来八年投 1.4 万亿美元搞基建,这一轮跟投资人说的数,到了 2030 年算力支出 6000 亿。
1.4 万亿变 6000 亿;周末华尔街的老狗们,一堆人拿计算器在那按:这是砍了一半,还是砍了六成?算力需求是不是到顶了?
我当时专门查了一下,两个数字根本不是一个口径。
一个是八年全基建承诺,数据中心、硬件、电力、人力,所有东西打包在一起;一个是五年纯算力支出,只算训练和推理的计算费用。
硬把这两个数放在一起比,相当于拿一栋楼的总预算跟装修队的报价较劲,口径都对不上,市场想明白以后,一周消化完毕。
第三次,2026 年 4 月 28 号,华尔街日报。
这回说 OpenAI 用户数没达标;周活目标 10 亿,没到,营收目标也没完成,好几个月度 KPI 都差了一截。
更狠的是 CFO 直接跟管理层放话:再这么下去,数据中心的账单可能付不起。
这一轮砸得不轻,费城半导体指数跌了 3.6%。甲骨文跌超 4%。AMD 跌 3.4%。CoreWeave 跌了 5.8%;那天大部分的内容叙事基本上就六个字:AI 鬼故事再度来袭。
哈哈,一个月后,全部收复,继续新高。
第四次,六月初,就是最近的博通财报;AI 芯片营收同比涨了 143%。这个数字放在任何行业都是炸裂级别的。
可市场不买账,原因是华尔街私下流传着一个「耳语数字」;官方一致预期每股 2.4 美元,博通交了 2.44,赢了;但私底下的耳语数字是 2.45。差了一分钱。
一分钱,就这一分钱,两天之内 AMD 跌了 12.6%,美光跌了 17%,Intel 跌了 9%;全球半导体板块蒸发超过一万亿美元。
三周后;全部收复。AMD 创了历史新高,Intel 也创了历史新高;第五次,就是刚才说的;OpenAI 推理成本减半,市场怎么反应的?涨了,全线上涨。
好,把这五次排在一起,你看出什么了?
第一次,暴跌一天,大半年修复;第二次,慌了一个周末,一周消化;第三次,跌了一天,一个月回来。第四次,跌了两天,三周收复。第五次,压根没跌。
鬼故事变少了吗?没有,每个月都有人写新的;变的是市场的免疫力;越来越强,强到最后一次,直接不反应了。
那问题来了,市场凭什么有这么强的免疫力?
我的看法是:市场花了 18 个月,终于想通了一件事;这些鬼故事,每次砍的都是同一个地方,而那个地方,根本就不是要害。
给你打个比方,一下你就明白了。
AI 硬件这门生意,可以拆成两层;上面一层叫装修,下面一层叫房子。
装修是什么?软件和算法。FlashAttention、模型蒸馏、推理优化、量化压缩,这些全是装修层的活。把同一颗芯片榨出更多性能,让同一块 GPU 吐出更多 token。
本质上就是「手艺越来越好,同样的材料能出更多的活」,这玩意靠模型。
房子是什么?物理硬件;芯片、内存、先进封装、代工产能。这些东西是硬的,供给是刚的。
台积电一条 2nm 产线盖三年,一条 HBM 产线投下去几十亿美元,DRAM 全球产能三家控着 95%;你想加产能?是加不了那么快。
好了,搞清楚这两层,回头看那五次鬼故事:
DeepSeek 训练更便宜?装修层;OpenAI 算力支出调整?装修层;推理成本减半?还是装修层;五把刀,刀刀砍在装修成本上,没有一把砍的是「没人想买房了」。
这里面真正反常识的事在于:装修越便宜,房子反而越值钱。
我查了一下 Anthropic 的数据,这个轨迹很能说明问题。
2024 年,Anthropic 每卖一块钱 token,光推理的硬件成本就要花掉将近两块钱;毛利率负 94%。对,你没看错,倒贴钱在卖。
到 2025 年,毛利率爬到了大概 38%;开始赚钱了,每卖一块钱留三毛八。
到今年二季度,按照给投资人的指引,推理毛利率预计已经干到了百分之六十几;不到两年,从倒贴九毛四变成净赚六毛多。
这个速度在商业史上几乎没有先例,传统行业的毛利率改善是按年算的,AI 推理的成本优化是按月算的。
这意味着什么?
价格降了一半,利润率反而更高了;成本跑得太快,根本不是降价抢市场;对于卖 token 的公司来说,每一次软件优化,都是在帮他们印更多的钱。
那你可能又问:成本降了,需求会不会也跟着降?
不好意思,反过来的。
我查了一组中国的官方数据;2024 年初,中国大模型日均词元调用量 1000 亿;到今年 3 月,国家数据局公布的数字是 140 万亿,两年,涨了超过一千倍。这些都是最新的数据。
说白了,token 越便宜,大家用得越疯。
以前跟 AI 聊天是一问一答,一次几千个 token 就完事了;现在让一个 Agent 帮你做调研、写方案、跑数据,它在后台自己调几十次模型,一个任务下来几百万个 token。
效率提升不光没有消灭需求,反而在制造需求。
Meta 前两天有个操作特别能说明问题,他们搞了一颗叫 Vistara 的芯片,干什么用的?
把退役服务器上的旧 DDR4 内存拆下来,通过新接口接到 DDR5 新服务器上,妥妥的「废物利用」。
猛一看像是在省钱,反过来想,一家市值万亿美元的公司,到了要从旧机器上拆内存条来复用的地步,什么概念?
内存紧到连旧的都舍不得扔;需求一直在涨,供给死活追不上。
这里我要说一句老实话。上面这套东西成立,它有一个前提:需求的增速,得持续跑赢效率的提升。
目前数据还能撑得住,token 消耗的增速远远快于成本下降的速度,装修越来越便宜,排队买房的人也越来越多。
如果有那么一天,排队的人不来了,杀手级应用没出现,token 消耗增速拐头往下了,那鬼故事就不再是鬼故事了。那叫真利空,不过这一天,还没到。
鬼故事为什么不管用了,讲完了;不过 6 月 30 号那天的盘面里,还有一个东西值得多看一眼。
你回去看一眼涨幅:
AMD 涨超 7%,Intel 涨超 7%。英伟达呢?1.3%。差了多少?五六倍。同一天,同一个板块,同一波利好,英伟达只喝到了点汤。
这可不是随机噪音,你看当天的催化就明白了:
分析师集体上调 AMD,盯的是服务器 CPU 在 AI 推理场景的渗透率;Bernstein 给 SanDisk 加码,盯的是 NAND 闪存的长期供货协议。
钱在往 CPU 和内存那边跑,再看内存这条线的数据,更直观。
今年 4 月,一支内存主题 ETF 上市,10 个交易日资产管理规模破了 10 亿美元,25 天破了 50 亿。闪存合约价一季度环比涨了 55% 到 60%,二季度继续扩大到 70% 到 75%。
我又查了一个数:内存占云巨头数据中心支出的比例,2023 年大概 7%,今年到了 30%。三年翻了四倍多。
为什么会这样?一句话就说清楚了:AI 从训练时代切到推理时代了。瓶颈换了。
训练时,谁的 GPU 猛谁跑得快?英伟达吃的就是这碗饭。
推理不一样;每生成一个 token,模型参数都得从内存里反复读取;卡在哪?算力是够的,但数据读不出来。
你就这么想:
AI 要干活,光有一颗聪明的大脑不够,得有一张够大的桌子,把所有资料同时摊开;大脑再快,桌子不够大,它也得在那等着翻页。
这张桌子就是内存,桌子现在是全链条最紧的东西。
说到底,在一个需求按月翻倍、供给按年才能爬一格的市场里,物理硬件就是「物权」;芯片也好,内存也好,产线也好,你握在手上的是实打实的东西。
软件、模型每优化一轮,这些东西能产出的价值就再涨一截。说白了,AI 效率的提升并不会让硬件芭比Q了。
这个时间还早,AI硬件的故事,快的话,还要讲个一年半载的。
