谷歌TPU助力OpenAI砍价三成,英伟达的“王座”要易主了?
6 小时前 / 阅读约7分钟
来源:36kr
谷歌TPUv7推出后,正积极向第三方销售,与英伟达竞争。Anthropic成首批重要客户,交易涉及约100万颗TPU。TPU技术栈与英伟达竞争,价格优势显著。谷歌正消除软件兼容性障碍,英伟达筹备反击。

多年来,谷歌张量处理单元(TPU)主要服务于自有AI模型。而随着TPUv7推出,这一战略正在转变。芯片分析机构SemiAnalysis指出,谷歌正积极向第三方销售芯片,直接与英伟达展开竞争。

Anthropic成为谷歌TPU的首批重要客户之一。分析显示,该初创公司的交易涉及约100万颗TPU,包括直接采购硬件和通过谷歌云平台(GCP)租赁两种方式。支撑这些硬件运行的基础设施,其功耗预计超过1吉瓦(10亿瓦)。

市场竞争格局已现变化。SemiAnalysis报告称,OpenAI凭借转向TPU或其他替代方案,在与英伟达的谈判中获得了约30%的价格折扣。

与Anthropic合作:向外部客户提供商业化硬件

TPU技术栈长期以来一直与英伟达的AI硬件竞争,但过去主要支持谷歌的内部工作负载。按照谷歌一贯的作风,即便在2018年将其提供给GCP客户后,TPU始终未能完全实现商业化。

然而,随着时间的推移,这一状况正在发生变化。近年来,谷歌已动员其全栈资源,通过GCP向外部客户提供TPU,甚至作为商业供应商销售完整的TPU系统。凭借其强大的内部芯片设计能力,谷歌正逐步成为一名真正的差异化云服务提供商。

这一举措也正好与Anthropic(谷歌的关键客户)希望减少对英伟达依赖的战略不谋而合。因此,与Anthropic达成的合作,是谷歌在这一战略上迈出的标志性一步。

谷歌在早期就对Anthropic进行了积极投资,并且同意不享有投票权,同时设定了15%的股权上限,目的是扩大TPU在谷歌外部的应用。此策略的成功得益于Anthropic实验室内的前DeepMind团队成员,后者擅长使用TPU进行大规模模型训练,这使得Anthropic能够在TPU等硬件上训练其Sonnet和Opus 4.5模型。

除了通过GCP租用谷歌数据中心的容量外,Anthropic还将在其自有设施中部署TPU,从而使谷歌能够直接作为硬件供应商与英伟达展开竞争。

关于100万颗TPU的分配,将分两步走:

第一步是直接销售:博通将直接向Anthropic出售价值约100亿美元的成品机架,内含 40万颗TPUv7(代号Ironwood)芯片。这笔交易使Anthropic成为博通财报中披露的第四个重要客户。

第二步是云租用:Anthropic还将通过谷歌云平台(GCP)租用另外60万颗TPUv7芯片。这部分预计将产生约420亿美元的履约价值,占GCP第三季度新增订单积压(490亿美元)的绝大部分。

值得注意的是,Anthropic并未自行管理这些硬件。现场安装、测试和远程运维等工作,外包给了Fluidstack(谷歌云顶级服务商)来完成;而数据中心基础设施则由合作伙伴TeraWulf和Cipher Mining提供。

分析机构SemiAnalysis预测,未来几个季度,谷歌云有望与Meta、OpenAI等更多AI巨头达成类似交易,从而进一步推动其云服务和硬件销售的增长。

TPU跻身顶级AI模型首选

实际应用数据表明,TPU已不再是次选方案。近期发布的两大顶尖AI模型——谷歌Gemini 3 Pro和Anthropic Claude 4.5 Opus,都主要依托谷歌TPU和亚马逊Trainium芯片。其中Gemini 3更是完全基于TPU训练完成。

技术层面,TPUv7“Ironwood”在理论算力(FLOPs)和内存带宽上已接近英伟达Blackwell架构产品。但真正的竞争优势在于价格。

图:谷歌TPU芯片规格

对谷歌而言,每颗TPU的总拥有成本比英伟达GB200低约44%。即使对外部客户如Anthropic(需支付额外溢价),每个有效计算单元的成本仍可能比英伟达系统低30%-50%。

图:单位小时总成本对比

这一优势在软件优化团队手中还会放大。谷歌系统支持将9216颗芯片互联为统一计算域,而英伟达系统通常只能将64到72颗芯片组成紧密集群。这种架构差异使TPU在分布式AI训练任务中更具扩展性。

图:TPU互联方式

软件生态破局:挑战CUDA壁垒

软件兼容性长期制约TPU普及,英伟达CUDA平台仍是事实上的行业标准。为此谷歌正加大投入消除这一障碍,据称正在开发对PyTorch框架的原生支持,并集成vLLM等推理库。

图:谷歌TPUv7与英伟达GB200/GB300对比

谷歌的目标是让TPU成为可行替代方案,且不要求开发者重构整个工具链。不过,TPU软件栈核心的XLA编译器仍属专有技术。SemiAnalysis认为这是战略失误,开源该组件有望加速社区接纳。

为推进芯片部署,谷歌采用创新融资模式:与Fluidstack等新云服务商及TeraWulf等加密矿企合作。在这些合作中,谷歌常担任财务保障角色:若运营方出现问题,谷歌承诺支付租金。该策略有助于将现有加密矿场快速转型为AI算力设施。

英伟达的反击:下一代芯片或重塑优势

面对谷歌的强势进攻,英伟达正筹备技术反击。预计2026年到2027年推出的“Vera Rubin”芯片将采用HBM4内存等激进设计,提供带宽。

谷歌的应对策略是TPUv8双线开发。据SemiAnalysis透露,谷歌计划推出两个版本:与博通合作的“Sunfish”,以及与联发科合作的“Zebrafish”。尽管实现多元化,但设计仍显保守。分析师指出项目已有延迟,且未积极采用台积电2nm工艺或HBM4内存等前沿技术。

这对谷歌至关重要。若英伟达成功实现Rubin芯片的性能提升,TPU现有的价格优势可能不复存在。SemiAnalysis预警称,英伟达Rubin系统(特别是“Kyber Rack”)甚至可能在谷歌内部工作负载中比TPUv8更具经济效益。

“谷歌已亮出底牌,现在压力来到英伟达这边,它必须完美执行才能维持市场领导地位。”SemiAnalysis总结道。

若英伟达能精准落实技术路线图,则将继续领跑。但若其在性能或量产进度上出现失误,市场主导地位将面临严峻挑战。