突破铜互联枷锁:CPO技术如何点亮下一代AI基础设施
3 小时前 / 阅读约10分钟
来源:集微网
Ayar Labs与纬颖科技合作,将CPO技术引入机架级AI系统,解决铜互连限制,采用液冷方案,优化光纤管理与可维护性,构建超大规模算力基础设施。

随着人工智能(AI)模型推高算力需求,服务器规模也在持续扩大。机架级AI系统(例如英伟达和AMD的72-GPU系统),可以通过系统层面深度优化让大量GPU协同工作,突破单芯片性能天花板,满足AI时代爆发式算力需求。

但这仅仅是行业变革的开端。下一步是把多个机架连接起来,打通算力共享效率,帮助数据中心实现最优总体拥有成本(TCO)。未来AI算力集群规模将很快突破1000颗加速器芯片。

要充分利用这些加速器集群,必须具备超高带宽与超低时延传输能力。这正是下一代AI系统全面转向共封装光学(CPO)技术的原因。传统铜互连正日益限制性能、系统扩展和能效。在当前高速传输速率下,铜缆仅能实现数米无失真传输;而当下数据中心通用的传统可插拔光模块能效偏低,无法支撑千颗以上加速卡、带宽密度持续提升的纵向扩容网络架构。

CPO正在成为唯一能够提供多机架规模扩展所需带宽密度和能效的解决方案。

纬颖科技(Wiwynn)高级经理Kinny Chen表示:“想要充分发挥加速卡集群性能,极致高带宽与极低时延二者缺一不可。CPO能够大幅降低传输时延,同时承载更高带宽。CPO早已不是锦上添花的备选技术,而是新一代AI与高性能计算(HPC)系统的刚需。”

联手研发可量产CPO整机系统

构建这样的机架级系统,会带来许多新的设计挑战。

Ayar Labs首席战略官Vivek Gupta解释说:“算力纵向扩容网络规模将从72卡GPU拓展至576卡,而铜缆拓扑架构在此规模下彻底失效。信号重定时器与铜缆物理层面无法承载576颗GPU互联所需传输速率。当下正是CPO技术落地的最佳窗口期,该技术能够提升互联带宽、降低互联功耗,彻底重构GPU互联底层架构。”

散热会成为一大棘手难题,光纤管理也可能变得极其复杂。潜在客户需要验证这类全新光器件在真实机房环境下稳定运行,同时要求新型整机的运维便捷性、可维护性与现有设备持平。

这也是Ayar Labs和纬颖科技近期宣布合作的原因。双方将把CPO引入机架级AI系统,以支持下一代超大规模工作负载。通过把Ayar Labs的CPO解决方案与纬颖的机架级系统设计和制造能力结合起来,可以构建不再受铜互连带宽和传输距离限制的系统。同样重要的是,本次合作聚焦于将CPO部署到生产环境所需的实际要求,包括散热、可维护性和光纤管理。

图1:Ayar Labs和纬颖的合作成果是一款采用集成CPO技术的光纤连接机架,用于机架级AI基础设施。

纬颖科技拥有十多年为顶级云服务提供商交付机架级IT解决方案的经验,深耕主板设计、系统集成、大批量L10机架/L11整机架交付业务;产品覆盖通用服务器与AI服务器,落地全球750余家数据中心,在中国台湾、美国、墨西哥、马来西亚、捷克等地区均设有生产基地。

Ayar Labs和纬颖科技在2026年3月光纤通信大会(OFC)正式对外公布合作关系,并现场展出一套完整的机架级AI基础设施参考设计,覆盖从L10机架到L11机架的完整形态。该方案采用100%液冷架构,并针对高功率运行进行优化,包括支持外置激光小型可插拔(ELSFP)光源、先进光纤管理,以及超大规模环境所需的可维护系统设计。该方案还采用高压直流(HVDC)电源架构,以支撑下一代加速器对功率和可扩展性的需求。

本文将披露更多技术细节,证明超大规模云厂商实际运营场景下,各类设计难点均可落地解决。在6月台北电脑展(Computex)上,Ayar Labs与纬颖科技展出了这套完整机架级算力基础设施。

跨机架弹性扩容架构

L10机架层面将高功耗AI专用芯片、CPO模块、精密光纤布线、ELSFP外置光源、冷板式液冷系统集成为一体化硬件。

单个计算托盘搭载两颗AI芯片与一颗中央处理器,搭配高压直流供电架构适配新一代加速卡功耗与扩容需求;单颗加速芯片光互联带宽可达100Tbps,由TeraPHY光引擎与SuperNova光源组件组成。

单台整机架最多搭载32个AI计算托盘,通过光互联链路实现64颗AI芯片互联互通;16台机架组网构成AI纵向扩容集群,集群加速芯片总数突破1024颗。机架、整机之间依靠超高带宽、超低时延光纤链路互通,不同机架内的加速芯片如同部署在同一台整机内协同运算,支撑数千颗GPU高效集群扩容。

Kinny Chen称:“整套硬件平台专为CPO、高密度加速卡扩容量身打造,全部配套核心技术均在设计之初同步统筹规划。”

图2:纬颖设计和制造的L10机架,采用Ayar Labs共封装光学器件和ELSFP光源,以及AI ASIC、先进的光纤管理和冷板液冷。

液冷方案商用落地验证

液冷是这一设计的重要组成部分。高功率AI机架功耗突破100千瓦,功率密度早已触及风冷散热性能极限。高功耗GPU、CPU、内存高度集成,形成密集热点,传统风扇散热无法满足散热指标。。

Ayar Labs激光产品开发高级主任工程师Nandita Aggarwal表示:“随着带宽需求上升,风冷方案已抵达物理性能瓶颈。液冷让冷却介质直接贴近发热元器件,散热效率大幅提升。”

在更小、更紧凑的形态下,液冷的单位体积热容量是风冷的3000倍,能够缩减数据中心冷却配套设施整体能耗,保障算力设备持续高负载稳定运行。这类小型化、高效率散热系统是未来AI硬件的标配。

液冷也会带来新的设计挑战,例如决定先冷却哪些部件,以及如何把水路引到机架前端。纬颖科技的工程人才在解决这些问题时发挥了重要作用。

验证这一设计的机械性能和热性能同样重要。光子组件对温度很敏感,此前外界并不清楚它们在真实环境中的运行表现。光子组件和ELSFP对振动和对准精度高度敏感,因此系统必须在热性能、机械设计、现场可维护性以及制造自动化路径之间取得平衡。本次演示为未来高密度CPO系统提供了设计参考。

纬颖科技技术主管Nicholas Chang表示:“光子组件和ELSFP对温度、震动和光路对准都非常敏感。当它们与液冷架构结合时,如何在热性能、坚固机械设计、现场可维护性和自动化之间取得平衡,会带来挑战,也是设计决策的关键。”

他补充道:“纬颖团队在系统集成和液冷架构方面经验丰富,而Ayar Labs团队在光子组件和ELSFP方面拥有专业能力。双方结合起来,可以快速形成稳健设计,并顺利且有信心地完成性能验证。”

图3:液冷式高功率ELSFP演示。

这次展示是液冷光源首次用于机架架构的案例之一。具体而言,重点展示高密度ELSFP液冷板卡背靠背布局设计。冷板设计支持符合OIF规范的高功率ELSFP,并具备完整可维护性。本次演示旨在完成机械、热学性能全验证,尽快推出可直接商用部署的高密度CPO整机方案。

Nandita Aggarwal解释说:“通过把我们的光学技术与纬颖科技的系统专业能力结合起来,我们正在交付一种经过预验证的液冷AI架构,它可以简化下一代连接,并加快上市进程。”

由于数据中心已经非常熟悉可插拔模块的操作方式,ELSFP支持一种与当前光模块管理方式相匹配的服务模式,同时又能在加速器端实现CPO性能。

机架规模下的光纤管理与可维护性

可以想象,1024个加速器、每个加速器配备8个光引擎、每个光引擎连接32根光纤线缆,数量会迅速累积。在这一规模下,光纤布线和维护操作必须从一开始就纳入设计,而不是事后再叠加进去。

Vivek Gupta补充说:“超大规模云服务商认可CPO的前景,但他们希望看到证明:这种技术在他们熟悉的形态中运行于数据中心时,可靠性和可维护性要求能够得到满足。”

设计当优先考虑清晰布线、可预测的弯曲半径管理,以及更便于在故障时拔出并更换线缆的维护流程。ELSFP光源也可以用同样方式拔出,而且不会造成系统停机。对于CPO的大规模量产部署而言,这种可维护性是不可妥协的要求。

随着生态系统走向成熟,可拆卸连接器选项可以进一步支持机架规模下的可维护性和光纤管理。Ayar Labs不绑定特定供应商,并与整个生态系统合作,根据客户要求和部署需求支持多种连接器选项。

迈向量产级AI算力基础设施

Ayar Labs首席执行官兼联合创始人Mark Wade表示:“AI基础设施正在超出铜互连的极限,超大规模云服务商需要一种从根本上不同的扩展方式。光互连机架可以消除互连瓶颈,并释放性能和效率的下一数量级提升。”

这项合作表明,CPO可以被工程化整合进机架级系统,并具备超大规模云服务商所需的热、机械和运营特性,从而弥合硅级创新与系统级部署之间的差距。由于超大规模云服务商通常按机架和集群规模采购并部署基础设施,我们必须验证散热、光纤布线、可维护性,以及一条清晰的可制造集成路径。

Kinny Chen表示:“CPO带来了一整套新的机械和热设计挑战。你需要处理敏感的光学组件,它们需要精确对准、适当散热和清晰的光纤布线,而这一切都要在一个高密度、高功率系统内部完成。我们的系统工程团队把光学技术与机架现实连接起来。这正是我们专业能力真正突出的地方。”(校对/张杰)

参考链接:https://semiengineering.com/building-a-production-ready-optically-connected-rack-for-ai-scale-up/