GTC2026：Agent应用爆发，倒逼推理算力和模型革新 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

GTC2026：Agent应用爆发，倒逼推理算力和模型革新

2026-03-17 / 阅读约8分钟

来源：36kr

Agent应用爆发推动AI推理算力革新，NVIDIA发布Groq 3 LPU与Rubin GPU结合方案，实现高吞吐低延迟。同时推出NemoClaw和Nemotron 3 Super软件，向AI价值链前端攀升。

Agent类型的AI应用，在2025年和2026年迎来了爆发，典型的产品是Claude Code和OpenClaw。它们分别服务的是程序员群体和知识工作者群体，其中Claude Code的年化收入在今年2月已突破25亿美元。

尽管ChatGPT已经拥有近10亿月活用户，但以ChatGPT为代表的ChatBot范式，用户平均每日的token消耗量大概在十万到百万量级。而在Agent范式下，用户每日token消耗量可达到千万甚至上亿，直接提升了一个数量级。

单用户token消耗量的指数级提升，对于推理计算系统提出了新要求。

对于NVIDIA，以往它们的GPU是针对模型训练计算需求优化的，对于推理计算需求，它有精度冗余（训练要求FP32，推理只需要INT8），能耗高，延迟高的问题，其实并不适用。

此后，NVIDIA通过在硬件上引入Tensor Core，在软件上加入TensorRT，一定程度上缓解了在推理算力上的不足，但是直到2026年的NVIDIA GTC大会，它才真正解决了这个问题。

Groq LPU的加入，平衡了推理算力的高吞吐、低延迟需求

先分析下推理算力对于算力系统有什么需求。

站在云厂商的角度，首先是吞吐量，也就是计算中心每花一兆瓦的能量，在每秒可以生成多少token。这既是一个性能指标，也是一个成本指标。

一个算力数据中心的总瓦数是确定的，每兆瓦能产生更多的token，在给定的成本下，能效和经济效益都会提升。

吞吐量是ToB客户关心的指标，对于C端用户，延迟是使用体验中感知最明显的部分。但是在技术上，高吞吐和低延迟是互斥的。

这背后主要的技术瓶颈在于推理计算式批处理 (Batching) 带来的等待和内存墙 (Memory Wall)。

内存墙的主要问题是，在高吞吐（高并发）状态下，多个请求同时去抢夺有限的显存带宽，会导致数据传输拥堵，计算单元被迫排队等待数据，从而拉长了所有请求的延迟。

GPU在吞吐量上本身很有优势，所以打破内存墙，成为现在AI推理算力产品主要优化的方向。

此前，我们介绍过Google TPU团队创立的MatX，它解决这个内存墙的方法是采用混合存储架构（SRAM和HBM结合）。HBM储存适用于高吞吐的并行计算，SRAM则适合低延迟的decode和token生成。

图片来源：NVIDIA官方

NVIDIA的解决办法也是SRAM和HBM结合，只不过它是通过一整个算力系统实现的。

在2025年12月花200亿美金收购来Groq后，NVIDIA在2026年GTC上发布了Groq 3 LPU，而且已经量产。

Groq 3 LPU搭载的是片上SRAM储存，但是问题在于SRAM虽快但容量极小，单颗Groq 3 LPU只有500MB SRAM。与Groq 3 LPU搭配使用的Rubin GPU，它有288GB HBM4储存。但这就有一个问题，它们俩的储存容量差了500多倍，根本存不下万亿参数的模型。

NVIDIA对此的解决方法是一套叫Dynamo的软件，它可以把推理过程拆成两半，Rubin负责prefill和attention（高并发运算部分，处理上下文），Groq负责feed-forward部分的decode和token生成（需要极低延迟和极高带宽）。

两者通过数据中心内部的以太网紧耦合，实现了延迟减半。黄仁勋在发布会上把这种技术定义为解耦推理（disaggregated inference）。在这种架构下，每兆瓦推理吞吐量最高可提升35倍。

事实上，与以往的发布会不同，此次NVIDIA拿出的不是单个的GPU，而是算力系统平台。上文讲的Groq 3 LPU+Rubin GPU的结合，在实际部署中，是平台与平台的结合。

Vera Rubin平台包括Vera CPU（ARM架构）、Rubin GPU、NVLink 6交换机、NVIDIA ConnectX 9网卡、BlueField4 DPU和Spectrum-6以太网交换机。

具体来说，Vera Rubin NVL72机架上集成了72个Rubin GPU和36个Vera CPU，它们通过NVLink 6连接，并配备ConnectX-9 SuperNIC和BlueField-4 DPU。

图片来源：NVIDIA官方

Groq 3 LPU以LPX机架形式存在，可以无缝集成到Vera Rubin平台中，一个LPX机架包含了256个LPU处理器，提供128GB片上SRAM和640TB/s的纵向互联带宽。

在大规模部署时，大量LPU可以协同工作，像一个巨型单一处理器一样运行；当与Vera Rubin NVL72机架一起部署时，它们可以很好的实现万亿参数模型与百万token上下文的推理，在功耗、内存与计算效率之间实现平衡。

黄仁勋还剧透了Feynman架构，在2028年，现有计算系统的七个组件将全部换代，会有全新GPU、LP40 LPU、Rosa CPU、BlueField 5 DPU，ConnectX-10 SuperNIC，NVLink 8。并且机架会同时支持铜缆和CPO光学互连。

所谓CPO（共封装光学），指的是将光通信模块与核心计算芯片（如交换机ASIC或GPU）直接封装在同一个物理基板上的技术。它能让交换机的网络能效提升约3.5倍到5倍，网络延迟大幅降低，同时可靠性大幅度提升，NVIDIA宣称其网络信号完整性提升了64倍。LPX机架无缝集成到Vera Rubin平台中，靠的就是这种技术。