
谷歌Gemini3发布后,资本市场上演了一场“跷跷板”游戏。
借助年度旗舰模型,谷歌市值一度涨超5000亿美元。另一方面,算力霸主英伟达同期蒸发了6000亿美元。
巨大的“剪刀差”似乎在暗示风向转变:当TPU跑出了Gemini3的惊人效果,甚至Meta也传出要采购TPU的消息时,通用GPU构建的算力护城河是否正在松动?硬件范式是否正在从通用的GPU向专用的ASIC发生“转变”?
腾讯科技2025 Hi Tech Day上,英诺天使基金合伙人王晟将这个问题抛给了沐曦股份、硅基流动和阶跃星辰几位国产模型及基础设施的“卖铲人”,进行了一场AGI关键基础设施“稳态还是变态”的终极拷问。
沐曦股份孙国梁认为GPU的叙事仍在:“华尔街的做空也许只是一种‘砍价方式’。”
在孙国梁看来,GPU和ASIC在几十年前就是“超级稳态”,他强调,当前模型处于高速迭代的阶段,GPU的通用性是它最大的优势。“你很难把一个专用性的产品放在一个通用场景里。”
在被问及“开源、闭源”之争时,硅基流动胡健强调,这是一种“老二、老三”生存法则的博弈。“就像安卓对抗iOS。DeepSeek一出来,市场炸了,大家就都得跟进,这是一种低竞争倒逼的趋势。”
胡健表示,如果模型不开源,智能如果只掌握在少数企业手里,客户不得不依赖这些巨头,并为此承担更高的成本与代价。
而在算法侧,阶跃星辰首席科学家张祥雨抛出了一枚“深水炸弹”:现有的Transformer架构无法支撑下一代Agent。
张祥雨指出,在长文本环境下,模型的“智商”会随着上下文长度的增加而快速下降。对于追求无限上下文的通用Agent而言,Transformer单向的信息流机制存在先天缺陷。阶跃星辰的研究表明,未来架构极有可能向“Non-Linear RNN”(非线性循环神经网络)演进。
嘉宾核心看点:
孙国梁(沐曦股份高级副总裁)
“现在的AI是用工程学在‘反推’基础科学。在数学和脑科学原理突破之前,我们需要靠GPU做大量的工程尝试。”
胡健(硅基流动联合创始人、首席产品官)
“模型不开源,智能只掌握在少数企业手里,客户不得不依赖这些巨头,并为此承担更高的成本与代价。”
张祥雨(阶跃星辰首席科学家)
“今天的Transformer完全支撑不了下一代Agent。真正的挑战不是计算复杂度,而是‘智商掉落’——文本越长,模型越傻。”
王晟(英诺天使基金合伙人、北京前沿国际人工智能研究院理事长):我们先聊一个最近很炸裂的事。Google发布Gemini3之后估值涨了5000多亿美元,大家觉得Google又回来了。但与此同时英伟达蒸发了6000多亿。
我想问问国梁,你是做国产GPU最头部的企业。怎么看这件事?硬件范式会不会开始往TPU/NPU这些专用芯片转了?大家是完全竞争还是一种竞合关系?
孙国梁:架构本身没有高低优劣之分,最重要的是看场景。
如果说稳态还是变态,GPU和ASIC(专用芯片)这两种架构在几十年前就是“超级稳态”了。ASIC里还有BPU、APU、VPU、DSP等等,它们在各自领域都有优势。
但在今天,我们处在一个模型高速迭代的阶段。在这个阶段里,GPU的通用性是它最大的优势。你很难把一个专用性的产品放在一个通用场景里,因为它处理不过来。
现在的模型更新太快了,快的话按周计,最迟也是按月计。从我们的视角看,任何一种基模还远远没有到达“收敛”的时间点。在未来相当长的时间内,模型的高速迭代依旧是常态。
还有一个问题是场景的碎片化。客户的应用场景是层出不穷、千奇百怪的。在这种分散的场景里,GPU和ASIC会长期共存,但通用GPU会有更好的泛化适配性。
至于英伟达市值的波动,说实话,这未必不是华尔街一种很好的“砍价方式”。之前华尔街已经做出了选择,把英伟达推向世界第一,就是因为在当前历史阶段,通用性显然还是主流。
王晟:胡健,你们是做连接的,左边是模型,右边是算力。这会不会导致工作量爆炸?比如要重构算子、编译器、计算图?另外,从客户使用情况看,模型是在发散还是收敛?
胡健:硅基流动现在自己有一个云,跟国内别的AI Infra比较大的区别,是我们可能大量的使用国产芯片,包括像摩尔和沐曦,我们都在大量使用用它来真实的服务客户。
整体来说,模型呈现“二八定律”。虽然新模型每隔一两周就出来一个,但大家的调用非常聚焦,主要集中在DeepSeek、千问、Kimi、GLM等少数模型上。
虽然模型变化快,但模型的结构基本上处于“逐渐稳态”。比如DeepSeek用MLA结构,包括MQA结构,大部分是基于Transformer的变体。这对国产芯片是非常大的利好。
如果场景千变万化,且不是基于Transformer,那会是CUDA的天下,因为它的软件栈填了十几年的坑。但现在结构相对稳定,我们核心要做的就是帮助国产芯片实现与英伟达同规格芯片的“端到端对标”。
这里面70%的工作是相对标准的。比如量化——大家都知道国产芯片以前大部分只做INT8,但是现在DeepSeek都是FP8,所以针对量化这一系列方案是通用的;再比如PD分离、KVCache的共享传输等。
剩下的30%需要针对不同芯片的性能瓶颈做联合优化。比如有的芯片算子弱,有的通信弱,我们就需要做算子融合或通信库优化。总体来看,模型结构趋于收缩,这些优化方案在大规模部署和应用时可复用性很高。
王晟:祥雨你是算法大师。我想直接请教:Transformer已经注定是通向AGI的最终范式了吗?目前学界还有RetNet、Mamba这些Linear Attention的范式,它们会有价值吗?
张祥雨:先给一个结论:现在的模型架构确实处于趋稳状态,但我们很可能处在一个巨大变革的前夜。
我最新的研究结论是:今天的Transformer并不足以支撑我们走向下一步,尤其是在Agent时代。
先解释前半句。确实,现在的架构基本上都收敛到Transformer。虽然有各种Linear Attention、SparseAttention的小修小补,在效率上做文章,但本质建模能力没有区别。
而且,我们发现了一个巨大的副作用:长文本真正的挑战不是计算复杂度,而是模型的“智商”会随着文本长度变化而快速下降。
对于通用Agent,它面对的应该是一个“无限流”的世界——它是无穷长的,从小到大的所有经历都在Context里。但今天的Transformer,不管号称支持多少Token,我自己测下来基本上到8-12万个Token就不可用了,即使GPT-5可能好一点,但最终都会退化。
这里的本质原因是什么?Transformer的信息流是单向的。
所有的信息只能从第L-1层流向第L层。不管Context多长,模型的深度(L)不会增加,或者仅能小幅增加(对于某些最新的架构变体)。
大家想象一下,人类的记忆是有极强的压缩机制的。我今天讲的每一句话,都是我历史上见过所有信息的函数。这个复杂的函数,不可能通过一个恒定层数的神经网络来表示。
王晟:我理解你的意思。这个成果你们研究出来了吗?
张祥雨:我们现在是在一些小规模实验得到非常积极的结论。未来的架构,它应该是一个短窗口的Transformer(建模short-term memory)叠加一个巨大的RNN(循环神经网络,用来建模episodic memory),而且是“Non-Linear RNN”(非线性RNN)。当然,这对系统效率和并行度是巨大挑战,需要软硬件协同设计(Co-design)。
主持人/王晟:张祥雨刚才的分享太有冲击性了,回头我还要消化。我们时间有限,我就特别简单说一下能源的问题,因为我们投了星环聚能。
在过去扔了氢弹之后,大家就开始探索搞“可控核聚变”。这事儿搞了80多年了,以前一直说“离成功永远还有50年”,但就在这两三年,情况发生了大逆转。特别乐观的人说还要10-15年,客观一点的说20年。
这事儿是怎么发生的?这跟AI的关系非常大。
今天托卡马克装置面临最大的两个问题:
第一是怎么获得巨大的磁场来约束等离子体。这要靠材料,这就涉及到AI for Science——大家都很乐观,觉得未来过几年高温超导、常温超导通过AI就搞出来了,这能解决大问题。
第二是等离子体的控制。里面上亿度、好几亿度,外面无穷多的线圈怎么控制它?这是一个“黑箱”,你切不开来看。过去写程序太复杂了,现在AI来了,通过模拟强化学习大家突然觉得这事儿行了。
如果不解决能源,整个人类文明都会受限。这太吸引人了。
我们讨论了芯片,现在我想讨论一下网络。
我想听一听大家实际训模型、跑模型的网络——不是实验室Demo,是实际出成果的——都已经跑到多大的规模了?
另外,英伟达的网络层次蛮多,NVLink、NVLink Switch、InfiniBand很多层次都布局了。我想知道我们现在自主构建的网络覆盖了哪些层级?
孙国梁:我认为AIInfra最大的挑战是要看清产品到底是什么。客户的需求是一个能够做大规模模型训练、推理、服务的通用性算力,而不是一张卡。
我们在全国各地也有数千卡的集群。无论是传统模型、MoE模型还是非Transformer架构的模型,我们都训练过。
另外我想补充一下能源。如果真的到用能源去解决算力问题的时候,中国有巨大优势。
核心原因是:今天我们的模型属于工程学。工程学的来源是数学推理,数学的来源是生理学和脑科学。但在基础脑科学和生物学研发上,人类还没有取得那么大的突破。所以我们在数学上没有突破,在工程学上只是在“暴力尝试”。
反而是现在我们在工程学上的很多尝试,会“反推”基础科学的演进。这是一个循环。我认为未来国产算力、基础能源和开源模型,好戏还在后头。
王晟:我们下一个问题给到胡健——开源和闭源的问题,因为我理解硅流上的很多都是开源的模型,现在美国巨头都闭源了,中国企业担起了开源的责任。未来开源能和闭源竞争吗?会不会担心最强的模型都是闭源的,导致你们的业务空间被挤压?
胡健:现在回答这个问题比较容易了,因为之前我们刚出来的时候和一堆投资人会问这个问题。
我们刚创业时也面临这个问题。我们坚定两点:开源肯定会起来,推理会是主流。
开源与闭源核心看两点:
第一是竞争格局。往往是处于第二、第三梯队的企业,为了不被头部完全抢占市场份额,必须开源。开源后会有更多人跟你玩,就能逆转形势。就像安卓对抗iOS。DeepSeek一出来,市场炸了,大家就都得跟进,这是一种低竞争倒逼的趋势。
第二是需求。智能如果只掌握在少数企业手里,企业客户为此会承担更高的成本与代价。企业有自己独特的数据,不敢交给闭源模型,因为有隐私和壁垒问题。为了数据可控、成本更低,需求端会倒逼开源持续存在。
就像安卓最终形成了自己的商业模式一样,开源模型未来也会有类似广告或服务的商业模式。
王晟:祥雨,阶跃刚刚发布了一个针对安卓手机的Agent:GELab-Zero。这是测试成分更多,还是真的能在手机产业落地?
张祥雨(阶跃星辰):为什么在这个时间我们要做GELab-Zero这样的一个工作,是因为它是智能发展的必经之路。
我看智能发展有两条轴,横轴乘以纵轴的面积,就是智能化水平:
横轴是“智能进化”:
第一代是ChatBot,背后的算法是NTP(Next Token Prediction);
第二代是Reasoner,背后的算法是RLVR(Verifiable Reward强化学习);
第三代Agent是什么?现在大家不知道。我自己擅作主张补上,它背后的算法原理应该是“自主学习与在线学习”。
我刚刚说的Transformer架构必然会有一次大的革新,指的是在这条横轴上,我们正在走向下一代的路上。当然模型架构革新也只是一小块,它属于分层记忆机制建模的一部分。除此之外,自主学习和在线学习还需要解决如何进行环境探索、如何利用环境反馈、如何在线更新模型参数的问题。
纵轴是“模态”:从语言、语音,到视觉多模态,再到最困难的具身智能。
在具身和多模态之间,夹着一个“虚拟世界的具身”——就是像人一样操作手机GUI。这比物理具身简单,但比纯文本复杂。
我们要在这方面走出一步。GELab-Zero的技术路径非常有特色:它是一个小模型,蒸馏了更大的视觉、语言模型的能力,通过搭建强化学习环境,赋予它在手机APP里探索的能力。
更关键的是,我们采用了“端云结合”的能力:在必要时发出请求调用云端模型,并且这两个模型是协同训练(Co-training)的,通过RL Trajectory共同形成梯度反传。这是一个非常重要的技术创新点。
王晟:再问个问题,刚才那轮问题的延续。我看到你的老战友何恺明最近也频频出手,最近发了两个很重要的论文,一个是JiT(Just image Transformer),他觉得采用去噪的方法不太对,直接一把可能就预测图像的结果了。还有一个是iMF(Improved MeanFlow)。它能够变得比Diffusion更好吗?
张祥雨:对,不过这些工作也是在Diffusion框架上打补丁,并未真正“颠覆”Diffusion。恺明最近频频在生成模型基础方向发力,原因很简单:Diffusion这一套在“老CV人”的眼里,是最不MakeSense的。它从一个分布出发,加噪再去噪,这个过程没有任何的语义,并且已经有很多工作展示了在diffusion过程中引入语义对齐可以取得显著的提升,这更说明了原始的diffusion框架是有问题的。
我解释一下为什么要这样做。
深度学习最喜欢的一个词叫“端到端”——从已知分布直接用一个深层神经网络一步达到结果。但在很长一段时间里,模型的“单步推理能力”是不够的。
这就像在语言模型里,单步推理不够深,所以我们要引入CoT(思维链)。你可以认为视觉生成里的“加噪去噪”,它的每一个Step就是一个CoT。
但是!这个CoT跟语言的CoT不一样,它不符合人类理解和形成图像的过程。我们叫它“Bad CoT Pattern”——因为它没有语义。
不过,虽然听上去不太合理,在“类Diffusion”框架下目前还没有太好的去掉加噪-去噪过程的实践。其他的框架,例如基于自回归的图像生成,也同样有缺少语义和单步推理能力受限的问题。
所以目前的研究趋势,一方面是如何给Diffusion等框架引入更丰富的语义,例如刚刚提到的Semantic Alignment,又或者是生成理解一体化训练,都属于这个范畴。另一方面就是尽可能把框架做得更简单、更为端到端,尽量减少人工引入的非语义的元素,恺明组最近的工作大都集中在这一块。
此外,也有人尝试直接提升模型的单步推理能力,例如把loop transformer等latent reasoning工具引入图像生成中,等等。
王晟:我们再拉回到你做的这个非常重要的工作,为什么不能是Memory被外挂,因为你说很多的上下文太长导致模型输出不利,我们为什么不能有一个模型专门去抽取,把Memory抽取更好的专用模型,再给到大模型。
张祥雨:当然是可以的,像您说的在草稿纸上人类也会做这件事,这属于外存。但是我们现在最主要的还是要建模智能体的内存,因为记忆是人类智能的核心组件之一。
人脑的记忆机制是一个非常复杂的,而且分层的记忆机制,从已实现的短到长,比如最短的叫做感知记忆,也叫瞬时记忆;而稍微长一些、大概持续数秒的叫做短期记忆,也可以叫工作记忆。
其中瞬时和短时的记忆,它的很多特性,比如无损性,比如说全连接的特性,今天transformer的上下文机制已经可以建模的很好了。
真正棘手的是长期记忆的建模,我们现在主流的架构还做得不是很好,一个叫Episodic Memory(情境记忆),你会发现大量的论文都在做这一块,它和fast weight update机制密切相关。还有一个叫做Semantic Memory(语义记忆),这个和slow weight update机制有关,这一块用模型参数本身可以建模,它的难度在于怎么Update。
王晟:我记得谷歌刚发了一篇论文,不断地Update模型参数。
张祥雨:对,它那个是走向Online Learning非常必要的。
王晟:今天的讨论特别符合我们“稳态还是变态”的议题。
我发现每一家头部企业都有坚实的基本盘,但同时都在敞开胸怀拥抱变化。Transformer可能不是终局,GPU还在进化,而能源(比如我们投资的可控核聚变)和工程的挑战才刚刚开始。这一波AGI可能刚刚起步,真正的蝴蝶效应,还在后头。
