数据中心CPU需求猛增,AI智能体成关键驱动力
3 小时前 / 阅读约7分钟
来源:Tomshardware
AI大规模部署让CPU成为关键基础设施,需求激增致市场增长率翻倍。数据中心调整CPU与GPU比例,高核心数CPU成主流,设计架构改变,CPU成AI系统效率与成本的关键。

(图片来源: Getty Images / I-Hwa Cheng)

  • Facebook
  • X
  • Whatsapp
  • Reddit
  • Pinterest
  • Flipboard
  • Email
分享本文
参与讨论
关注我们
将我们添加为Google首选来源
订阅我们的通讯

AI革命如火如荼,其势头之猛,让人不禁联想到昔日的淘金热潮。在这个新时代,新稀缺资源的消息在社区内迅速传播,人们争相抢购,兴趣盎然。在ChatGPT引领的时代,GPU成为稀缺资源,即便付出高昂的金钱和精力,也难以轻易获得。英伟达几乎可以自主管理其等待名单,因为市场对其GPU的需求实在太过旺盛。

大部分媒体的关注焦点,以及大量的投资,都集中在如何尽可能多地获取GPU上。而最近,内存也成为了新的关注焦点。

然而,在最近几周和几个月里,人们的关注点开始转向确保有足够的CPU来匹配这些GPU。几十年来,CPU一直是硬件堆栈中默默无闻的主力军,它负责运行操作系统、调度工作负载,并确保整个系统的稳定运行。除非出现供应紧张或性能代际飞跃,否则CPU很少成为新闻头条。

最新视频来自
观看完整视频:

突然之间,CPU开始与稀缺如金的GPU相提并论。这究竟是怎么回事呢?

日立万塔拉欧洲、中东和非洲地区首席技术官杰森·贝克特在接受Tom’s Hardware Premium采访时表示:“AI的大规模部署迫使企业深入审视炒作背后的基础设施。”正如贝克特所指出的,虽然大部分注意力都集中在GPU上,因为它们是运行AI模型的关键,但CPU同样至关重要,因为它们负责处理“其他一切事务”。

随着智能体AI逐渐成为常态,对CPU骨干网络的需求也日益增长,以确保整个系统的稳定运行。贝克特表示:“多步骤推理系统需要持续运行,而不仅仅是在GPU工作负载周围产生短暂的协调爆发。它们需要持续运行的高核心数CPU来处理持续负载。基础设施需求一直是结构性的,只是现在无法再被忽视。”

调整比例

在生成式AI革命的初期,当数据中心被设计用于提供AI训练和推理服务时,建设者们严重偏向于GPU。聊天机器人对话需要每1个CPU对应4到8个GPU,因为满足用户请求所需的并行计算主要由GPU进行推理。

但随着AI的主要应用场景从聊天机器人转变为智能体,需求也发生了显著变化。AI模型在“思考”时进行深度推理所产生的轻微延迟,曾被视为一种可接受的界面选择。然而,随着智能体AI需要快速响应以及工具调用等的顺畅协调,延迟问题可能变得致命。增加CPU数量可以帮助避免任何可能迅速演变成更严重问题的情况,从而破坏整个智能体堆栈的稳定运行。

作为CPU的主要制造商之一,AMD亲眼见证了这一转变。该公司此前预测CPU市场将以每年约18%的速度增长,但现在表示需求的变化已显著改变了市场格局。AMD称,增长率现已翻倍至每年35%,并将在本世纪末成为一个价值1200亿美元的庞大市场。

(图片来源: AMD)

PEAK:AIO首席执行官罗杰·卡明斯在接受Tom’s Hardware Premium采访时表示:“AMD和Arm的结果告诉我们,这是一种结构性需求,而非周期性需求。”“实际上,两个结构性转变正在推动需求激增:智能体AI的兴起,以及对机架级确定性、可预测性能的需求。”

大部分CPU需求来自超大规模企业,它们深刻认识到CPU在开发未来可能推动经济的AI集群中的重要作用。Aegis Cooling负责战略合作的副总裁杰夫·摩尔在接受Tom’s Hardware Premium采访时表示:“随着GPU集群规模的扩大,CPU在协调、内存管理、网络、存储协调和推理处理方面承担了更大的角色。”Aegis Cooling专注于为AI和高性能计算基础设施提供下一代液冷解决方案。

摩尔表示,AI部署中的CPU与GPU比例正在不断上升,“特别是因为分布式AI工作负载对通用计算、内存带宽和东西向数据移动产生了巨大需求。”TrendForce最近的一项分析指出,CPU对延迟的贡献——占所有响应延迟的近91%——是AI部署试图拼命抵消的关键因素。

改变设计

(图片来源: Nvidia)

这一转变现在不仅体现在财务预测中,还深刻影响了AI基础设施本身的物理设计。在早期的生成式AI部署中,机架通常围绕密集的GPU配置构建,CPU实际上被视为支持组件——足以保持系统运行,但并非瓶颈问题。然而,现在情况正在发生变化。PCB制造商OurPCB创始人霍默·赵在接受Tom’s Hardware Premium采访时表示:“在媒体中,AI机架被描绘成一个巨大的GPU盒子。”“但从硬件设计角度来看,GPU只是一个非常快、但非常笨重的引擎。它无法连接到互联网或从硬盘中提取数据。”

超大规模企业不再将单个主机CPU与多个GPU松散配对,而是开始部署具有更高核心数CPU、更多内存通道,以及在某些情况下每个节点配备多个CPU的配置,以满足数据移动需求。

热和功耗考虑也在深刻影响机架的配置方式。高核心数CPU,特别是那些针对云工作负载优化的CPU,不仅因其原始性能而被选中,还因其在持续负载下的效率而被青睐。在液冷环境中,CPU越来越多地与GPU处于同一热设计范围内,而不是作为事后考虑单独用空气冷却。

成功的财务迹象

AMD和Arm的最新业绩进一步强化了这样一种观点:这不是短期修正,而是更深层次的架构转变。AMD报告称,其数据中心CPU部门实现了强劲增长,这在很大程度上得益于超大规模企业对EPYC处理器的需求,这些处理器提供高核心数和内存带宽,非常适合AI协调任务。

与此同时,Arm正受益于超大规模企业设计自己的定制芯片。贝克特表示:“到2025年,Arm将占据向顶级超大规模企业出货的所有计算设备的近一半,部署超过十亿个Neoverse核心。”“这些都是多年前做出的机架级架构决策。”AWS的Graviton、谷歌的Axion和微软的Cobalt芯片都反映了向针对特定工作负载定制的CPU架构的转变:高吞吐量、节能且与网络和存储紧密集成。Arm的授权模式使其处于这一趋势的中心,其最近的财务业绩也凸显了超大规模企业驱动的需求的重要性。

这两组结果都表明,CPU的估值方式正在发生深刻变化。在传统企业环境中,硬件通常是通用的、可互换的。但在超大规模环境中,它正成为一种专门的基础设施组件,针对AI系统内的特定角色进行调整,无论是协调、边缘推理还是数据预处理。

综上所述,机架设计的改变和供应商的表现都表明,CPU已不再是AI基础设施规划中的次要考虑因素。相反,它们正成为决定整体系统效率和成本的关键因素。

贝克特表示:“聚光灯并没有揭示新事物。”“它只是终于照亮了严肃的基础设施团队从未停止构建的东西。”