C114讯 5月29日消息(蒋均牧)随着AI算力的瓶颈从芯片内部转向芯片之间,光网络在AI集群中的价值正在被重估。在5月28日于上海举行的“x”PO赋能AI数据中心光互连论坛上,百度光网络架构师万昳系统解析了AI集群三大场景对光网络的需求。
她指出,Scaling Law已从堆参数量转向提升效率,混合专家模型带来海量All-to-All通信,推理场景的KV Cache规模膨胀使时延成为关键指标。面对通信墙的转移,Scale-Out、Scale-Up、Scale-Across三层网络各自面临不同的光技术课题,铜与光的边界需根据总成本最优原则重新划定,而NPO、CPO、TFLN、空芯光纤等多项技术正在不同维度上展开探索。

英伟达近期接连宣布与康宁、Coherent、Lumentum签署总额超70亿美元的光互联合作协议,光连接从配角走向主角的信号已足够清晰。LightCounting预测,2026年全球光模块市场仍将保持约60%增速,至2031年市场规模逼近600亿美元。百度作为国内AI基础设施的重要建设者,其对光网络的需求研判和技术路线选择,值得产业界深入关注。
Scale-Out:从三层到两层,光模块速率迭代周期缩短
在发言中,万昳首先回顾了Scale-Out网络的演进轨迹。传统DCN采用接入、汇聚、核心三层架构,适用于以南北向流量为主的CPU时代。AI集群的流量特征已发生根本性变化:东西向流量占比超过80%,且对延迟极度敏感。产业追求的方向是将架构压缩至两层以内,甚至探索单层“大平层”方案,以最短跳数完成GPU间数据传输,同时迅速地扩展规模、将Token的成本降到最低。
这一架构演进的物理基础在于交换节点速率的加速迭代。过去芯片制程和芯片研发遵循两到三年翻倍的摩尔定律周期,如今节奏明显提速,已压缩至一年半甚至更短。
光互联层面,增量主要集中在AI集群(HPN)场景。万昳指出,通算领域从40G到400G的各速率等级生命周期相对较长,增量有限;但在基于51.2T和102.4T交换节点的AI集群中,400G、800G乃至1.6T光模块存在巨大增量。同时,400G/800G大量采用Break Out方式拆分为多通道,目的是以更低成本接入更多计算节点,平滑演进。
Scale-Up:铜光共存,NPO代表更长远方向
Scale-Up网络的定义是一个“超级资源池”——所有GPU共享内存池,通过类总线网络实现极低时延的数据交换。万昳强调,这一区域内绝大多数路径是唯一的,节点发生故障时没有备用路径可选。因此Scale-Up对链路稳定性和信号完整性的要求,远超普通通信网络。
在Scale-Up互联方案中,铜与光的选择是业界争论的焦点。万昳给出了明确原则:能用铜的地方尽可能用铜,无论无源铜缆还是有源铜缆;必要用光时,毫不犹豫地上光。她列举了铜缆的现实工程难题:阻隔散热影响气流、布线难度大、信号完整性受电磁干扰。相比之下,光纤柔软、不受干扰、布线灵活。但最终选用哪种介质,取决于应用场景,以及总体成本最低。
百度在Scale-Up域内正积极评估多种光方案。LRO兼容性较好且具有时延上的优势,同时因保留可插拔形态对运维友好,被寄望于超节点中批量应用。NPO则代表更长远方向,是向全光互联演进的重要一步,万昳希望借此实现“XPU直接出光”,无需经过多路转换,只要光纤通达即可直连上层交换节点。其价值还在于前面板布局的优化——当光模块数量急剧增加时,前面板的散热和布线已成为物理层面的瓶颈,NPO通过减少可插拔形态的存在,为更高密度的端口部署创造了条件。
此外,她还提到了一个重要的工程理念:BOX设计和光模块的分离时代正在结束,未来在系统设计初期就必须把芯片能力、光能力、光网络能力进行综合设计,在D1阶段即达到最优表现。而在运维层面,百度的思路是将NPO做成整机可插拔形态,前提是光的失效率必须低于电芯片。
Scale-Across与前沿探索:从DCI到AI超级工厂的跨越
当AI集群突破单个数据中心园区的物理边界,Scale-Across便成为必然选择。万昳透露,百度自一年前便已开始在多个机房中部署跨DCI的数万卡集群互联,通过几十公里传输链路将分布在不同位置的GPU连接起来。
Scale-Across的核心诉求是:极高的带宽、可控的时延与冲突、无损传输。传统DCI设备虽能满足技术指标,但成本过高,如何在高带宽与低成本之间取得平衡,是百度当前探索的重点。万昳特别强调,无损传输不仅依赖光传输设备,更需要与交换网络联合设计,以实现端到端的系统最优。
在三到五年的技术展望上,万昳梳理了百度重点关注的方向:CPO方面,百度已与部分厂商深入交流,落地需要时间,但小批量测试可先行启动。400G及更高速率上,硅光和TFLN(薄膜铌酸锂)是两条主路线,今年业内已在400G硅光上取得突破,TFLN则需关注国内生态链成熟度和良率。Coherent-Lite是Scale-Across跨域互联的重点方向,u-LED面向Scale-Up短距互联极具潜力,空芯光纤则因超低延迟特性受到关注,百度也愿意联合产业界共同尝试。
AI集群对光连接的需求已从“带宽够不够”演变为架构、成本、延迟、运维的系统性考量。正如万昳在演讲结尾所言,光产业链在AI集群建设中有大量可做的事情,这对于整个产业都将是非常好的机会。
