以网强算,以光赋智:光互连释放AI超节点全部潜能
8 小时前 / 阅读约7分钟
来源:C114
大模型发展对AI基础设施提出新要求,超节点架构提供可选方案。光互连在带宽、功耗和传输距离上优势显著,成为破局关键。各企业正推动光互连技术发展,以释放算力潜能。

C114讯 1月22日消息(水易)大模型快速推陈出新,参数的规模、多模态的复杂度以及推理的负载不断提升,在Scaling Law法则仍发挥重要作用的背景下,对AI基础设施提出全新要求,超节点架构的出现为构建更大规模的算力集群提供可选方案。

为实现资源的弹性调度与极致能效,超节点内部的Scale-up互连、超节点之间的Scale-out网络,以及跨数据中心的Scale-across,共同构成了新一代AI基础设施的核心骨架。相较于传统电互连,光互连在带宽密度、功耗效率和传输距离方面具备显著优势,但其在封装集成度、成本控制、热管理及系统兼容性等方面仍面临挑战。

1月22日,CIOE中国光博会与C114联合举办“2026中国光通信高质量发展论坛”线上研讨会——“AI超节点互连架构演进”专场。深入探讨AI驱动下超节点互连架构的演进趋势,聚焦光互连在高性能AI集群中的可行性与落地路径,推动“以网强算、以光赋智”理念在算力基础设施中的实践落地。

需求驱动光互连支撑超节点可持续发展

中国电信研究院副院长李俊杰表示,面向大模型训练、迭代调优及推理云服务能力场景需求,AI超节点可充分发挥高带宽、低时延、强协同、高效率等特点,但电互连方案或将面临内存墙、功耗墙与I/O墙“三堵墙”等问题。光互连技术有望在速率、功耗和容量三个层面解决目前超节点面临的可持续发展瓶颈。

中山大学通信工教研室主任、教授、博士生导师李凡认为,算力需求在大模型的推动下,呈现爆发式的增长,增速远超摩尔定律,下一代算力节点的增长必然将通过跨域扩展来实现,而在其中光通信光互连的重要性不言而喻。

阿里云资深架构师席永青表示,在超大规模集群中,真正决定集群性能上限的往往不是计算单元,而是连接这些单元的网络,如何让网络性能从“尽力而为”(Best-effort)变成“可预期”(Predictable),成为AI Infra竞争的新高地。

中国联通研究院主任研究员郑滟雷指出,研究并构建高效、可靠的超节点广域互连网络架构及关键技术,已成为突破算力瓶颈、释放AI潜能的核心任务。光纤通信凭借其固有优势,成为破局的关键。全光网络,特别是基于OTN的全光互连架构,能够提供超大带宽的一跳直达能力,有效突破算效瓶颈。

腾讯光网络架构师付思东表示,当前“算力如火箭攀升,网络如步行前进”的失衡状态,导致在万卡乃至十万卡级别的GPU集群协同训练时,节点间数据传输速度成为系统性能的关键瓶颈,严重影响集群整体效率与资源利用率,全光互连为破解这一难题提供了新路径。

创新不断:材料、封装、架构持续升级

当然,光互连技术在超节点中应用需要一系列关键技术,中国电信李俊杰将其总结为大带宽器件、系统架构以及互连介质等三个方面。大带宽器件方面,底层光电材料、封装工艺创新,LPO/LRO、CPO等创新模块以及电信级可靠性光模块;系统架构方面,包括OCS、光网络智能化;互连介质方面,空芯光纤可实现更低时延。

光库科技芯片设计兼产品经理郝婷表示,超节点光互连中,光调制技术不可或缺。目前行业内光调制的技术主要有三种:基于硅光、磷化铟和铌酸锂材料平台的电光调制器。硅光主要应用在短程场景,磷化铟应用于中距和长距场景,铌酸锂电主要用在400Gbps以上的长距骨干网相干通信和单波200/400Gbps的超高速数据中心中。

郝婷介绍,基于薄膜铌酸锂的光调制器,可以提供超高单通道速率、超低驱动功耗、超高线性度以及材料稳定性与可集成性,有望成为未来CPO规模部署的重要选择,从而支撑超节点光互连的部署。未来还要加强异质异构集成,充分发挥各材料的优势,同时推动先进封装。

凌云光技术股份有限公司光纤器件与仪器事业部CTO张华介绍,光IO与光电路交换(OCS)等核心光互连技术,通过光电协同设计,突破传统电IO的传输距离/功耗/带宽密度等限制,此外OCS技术通过全光动态拓扑重构,可构建低时延、无阻塞的全局光互连架构,结合智能调度算法,提升算力资源利用率,为AI可重构数据中心网络(RDCN)构建高效、弹性、可扩展的光底座。

中山大学李凡表示,为了支撑数据中心算力的持续增长,服务器中核心交换机光模块接口速率从40G逐渐演变到下一代1.6T,因此光通信传输技术也需要不停更新迭代。下一代1.6T光互连中,相干技术可以通过技术路线简化的方式,满足多个数据中心之间互连的Scale-Across需求。

应用实践落地光互连充分释放算力潜能

阿里云席永青介绍,阿里云围绕高性能、高可靠、高性价比三大核心诉求,开展全栈式网络架构创新。通过HPN(High-Performance Network)和UPN(Ultra-Performance Network)双轨并进,构建起支撑训推一体、万卡协同的下一代AI基础设施。

其中,HPN是阿里云面向大规模分布式训练与推理打造的高速网络,应用于Scale-out场景。UPN采用LPO/NPO全光互连技术,在单机柜内部构建光速通信网络,直面未来Scale-up的终极挑战。阿里云将基于HPN+UPN的协同设计,构建一个超大规模、低时延、高可靠、低成本、可扩展的智算底座。

中国联通郑滟雷介绍,中国联通在2024年成功完成业界首个3000公里长距无损传输现网验证,充分证明了全光网络在广域场景下支撑AI超节点互连的技术可行性与巨大潜力。通过构建一个近乎零丢包的广域无损网络,全光底座可为跨地域的GPU集群提供接近数据中心内部的通信性能,进而释放AI的全部潜能。

腾讯付思东表示,硅光技术与NPO已成为推动网络性能跃升的核心技术路径。Scale-out方向,腾讯坚定地布局硅光技术,目前自研400G硅光BR4模块累计部署量达200万只,保持零失效记录。Scale-up方向,NPO通过将OE引擎部署在靠近主芯片,具有低成本和低时延优势,同时尺寸更小、速率更快,端口数的减少还能降低部署和运维工作量,目前已联合阿里云等在ODCC发起3.2T NPO标准化项目,旨在推动应用场景、硬件接口、管理协议等规范制定。

“2026中国光通信高质量发展论坛”是由CIOE中国光博会与C114通信网联合推出的大型研讨会系列活动。下一场研讨会将于3月26日上线,主题为“空芯光纤:下一代光传输介质的战略突破”,将深入探讨空芯光纤的技术成熟度与应用场景适配性,剖析从材料、光纤、器件到系统全链条的国产化突破路径,推动我国在下一代光传输基础设施领域实现跨越式发展。