一直以来,很多人用一种简单的线性逻辑来理解 AI 算力大战:谁的芯片更先进,谁就能赢。
然而在 4 月 15 日的这场对话里,黄仁勋给出了截然不同的视角。他指出,英伟达真正的优势早已不在芯片本身,而在于构筑了三大壁垒:
数亿台设备的庞大装机量
每年稳定按期交付的迭代能力
以及一个高度协同的产业链生态。
当单点技术越来越容易被模仿,什么才是真正难以复制的系统性优势?
谈及英伟达的绝对优势,外界的第一反应往往是技术指标:更先进的架构、更强悍的算力、更激进的迭代速度。
但在这场对话里,黄仁勋强调的是:装机量。
他提到,现在外面已经有数亿个英伟达GPU。这些GPU分布在各个地方,从云端到本地,从数据中心到机器人内部。A10、A100、H100、H200,L系列、P系列,尺寸和形状各异,但它们都运行同一套技术栈:CUDA。
这些庞大的基数意味着什么?
如果你是一家 AI 公司,或者一个开发者,你开发出来的模型或软件,可以在这数亿台设备上直接运行。你不需要为不同的平台重新适配,不需要担心兼容性问题。这种“一次开发,处处运行”的商业价值,在黄仁勋看来无可估量。
更关键的是,英伟达存在于每一个云平台。Google、Amazon、Azure、甲骨文,所有主流云服务商都在用英伟达的GPU。这意味着,如果你不确定要和哪家云合作,或者想在不同云之间切换,英伟达都能支持。
这种“无处不在”带来的直接结果是:所有的底层框架和前沿算法,都会优先针对英伟达进行优化。PyTorch、TensorFlow、JAX,所有主流AI框架都有完整的CUDA支持。如果一个新算法被发明出来,开发者的第一选择几乎总是先在CUDA上实现,因为这个生态系统太成熟了。
黄仁勋说,这构筑了三个层面的绝对优势:生态系统的丰富度、装机量的广度,以及应用场景的通用性。三者相互咬合,形成了 CUDA 现阶段无可替代的壁垒。
这也能解释,为什么竞争对手很难追上。
在实验室里流片出一块纸面性能更好的芯片,也许只差几个技术周期的努力。但要让全球数百万开发者迁移工具链,让所有云平台心甘情愿地适配,让数亿台终端完美兼容,绝不是几年内靠砸钱就能速成的。英伟达在 CUDA 上长达 20 年的孤注一掷,甚至在大部分时间里忍受亏损,才换来了今天的生态。
后来者要复制这条路径,不仅仅是光刻机和算力,还需要时间、投入,以及让足够多的人愿意切换的理由。
正因如此,护城河的本质从来就不只是一串冷冰冰的技术参数;而是有多少人被绑定在这个生态里,并且愿意留在这里多久。
如果说装机量构筑了英伟达生态的“广度”,那么技术壁垒的“保质期”究竟有多长?
黄仁勋在对话中给出了极其笃定的时间表:今年交付 Vera Rubin 架构,明年推出 Vera Rubin Ultra,后年则是 Feynman。一年一迭代,且每一代都能实现数量级的性能跃升。用他的原话来说,这种节奏“像时钟一样精准且绝对可靠”。
这种看似狂妄的承诺,有着坚实的数据支撑。从 Hopper 到 Blackwell,英伟达的算力性能飙升了近 50 倍;而在同样的时间跨度里,遵循传统摩尔定律带来的增幅仅约 25%。
巨大的“剪刀差”究竟从何而来?
答案在于“软硬件协同设计”。黄仁勋直言,纯硬件层面的微缩红利有限,真正的跨越式提升来自算法与架构的深度融合。以 MoE(混合专家模型)为例,其庞大的参数需要在计算集群中被高效地解耦、并行与分布式处理。如果无法深入底层、通过 CUDA 编写全新的计算内核,这种系统级优化根本无从谈起。此时,计算架构的“可编程性”便成为了分水岭。
相比之下,TPU 等专用加速器(ASIC)虽然在矩阵乘法等特定任务上跑得极快,但牺牲了灵活性。如果前沿开发者想要探索全新的注意力机制,或者设计一套融合扩散模型与自回归架构的新范式,他们必须依赖一个高度灵活、可敏捷调整的通用架构。黄仁勋笃信,算法创新才是驱动 AI 进化的第一动力。摩尔定律每年只能挤出 25% 的性能增长,而算法的突破却能带来十倍甚至百倍的飞跃。
这种技术上的降维打击,最终会转化为碾压性的成本优势。
黄仁勋在访谈中直接抛出了“综合拥有成本(TCO)”的概念,并隔空向竞争对手喊话:欢迎 TPU 或 Trainium 带着自家的 InferenceMAX 基准测试结果来比拼 TCO,但至今无人应战。
同时,他还指出了另一个决定智算中心生死的指标:每瓦性能(Performance per Watt)。当你投入巨资建起一座 1 吉瓦的数据中心,核心诉求只有一个在单位能耗下榨取最多的 Token(因为 Token 即营收)。在这个维度上,英伟达架构依然是毋庸置疑的王者。
在算力即权力的当下,速度有多快就意味商业回报有多快。
所以英伟达的技术优势不只体现在某一代产品上,是一种持续迭代的能力。每年都能按时交付,每年Token成本都能下降一个数量级,这种可靠性本身就是壁垒。
你可以押上全部身家,打赌他们明年还会出现。这是他们和那些ASIC项目最大的区别。
前两节讲了生态系统和技术迭代,但这还不是英伟达优势的全部。
英伟达在晶圆、内存、封装上的采购承诺,已经到了数千亿美元的量级。这些承诺不是等需求确定了再下单,而是提前数年布局。
黄仁勋讲到,英伟达和台积电合作快30年了,但两家公司之间没有严格的法律合同。一直都有某种粗略的默契和公平。有时候英伟达错了,有时候对了。有时候拿到好交易,有时候稍微吃点亏。但总体而言,这种关系是极其牢固的。
他说,我可以完全信任他们,可以完全依赖他们。这种信任关系很难被复制。历史上没有任何其他代工厂能让客户这么说。你可以问问其他ASIC团队,有谁能押上全部身家,打赌供应商每年都会按时交付,每年成本都会下降一个数量级。
但光有上游还不够,下游同样需要投入。
黄仁勋透露,他们分配给顶尖AI实验室的工程师数量规模难以想象。这些工程师和客户一起优化技术栈,帮助他们从系统中释放更多性能。经常出现的情况是,优化完成后,模型速度提升了2倍、3倍,甚至50%。当你把速度提高两倍时,收入也会翻倍。这种深度服务能力,让客户很难离开。
除此之外,他还投资了一批新兴云厂商:CoreWeave、Nscale、Nebius。这些公司如果没有英伟达的支持,可能根本不会存在。英伟达的逻辑是,如果这些公司需要投资才能起步,就支持他们。但目标不是自己成为云服务商,而是让生态系统繁荣起来。
GTC大会也是这个逻辑的体现。
他把整个AI产业的上下游都拉到同一个地方。上游看到下游在增长,下游看到上游在扩张,开发者看到新机会,所有人都能看到AI的进步。他花大量时间向供应链、合作伙伴和生态系统传达未来的机遇,让每个人都能理解即将到来的是什么,为什么会到来,规模有多大。
这也是为什么他说,如果未来几年英伟达的业务规模达到万亿美元级别,他们有供应链能力去接住。这个能力不只是采购承诺,是整个产业链已经被组织起来了。
黄仁勋在访谈里反复强调一句话:
尽其所需,做尽量少的事。
芯片是英伟达必须自己做的部分,因为如果不做,没有人会去做好。但云服务、应用开发、模型训练,这些都有专门的人在做,英伟达不需要自己下场。
它只需要确保,所有这些事情,都离不开它。
芯片可以被模仿。
但数亿台设备的装机量,每年按时交付的能力,三十年建立的信任关系,这些需要时间。
时间才是英伟达真正的护城河。
参考资料:
https://www.youtube.com/watch?v=Hrbq66XqtCo&t=986s
https://x.com/dwarkesh_sp/status/2044456498441708013
https://podscripts.co/podcasts/dwarkesh-podcast/jensen-huang-tpu-competition-why-we-should-sell-chips-to-china-nvidias-supply-chain-moat
来源:官方媒体/网络新闻
