AI大模型正以惊人的速度迭代。存储与带宽的增速,远远追不上模型膨胀的脚步。这就是困扰行业已久的“内存墙”问题。更棘手的是,当前主流的2.5D封装(如台积电CoWoS)技术是单一平面扩展,布局布线资源受限,集成密度低,在AI高算力的场景下,芯片面积无法进一步压缩。
当横向扩展难以为继,“向上生长”的3D堆叠技术就成为了必然选择。对于国产AI芯片而言,3D堆叠技术可以在先进工艺产能受限、高端HBM供给不畅的产业现实下,3D堆叠提供了一条以“空间换性能”、绕过部分工艺封锁的可行道路。
在先进封装领域,2.5D封装通过在硅中介层上集成多个裸die,实现了芯片之间的高速互连和短距离通信。硅中介层通常采用硅通孔(TSV)技术实现垂直互连,具有高密度、高性能的互连特性,可以大大提高系统的整体性能。

3D堆叠技术通过芯片堆叠或封装堆叠,例如采用硅通孔或混合键合技术,以增加功能、提高集成密度、降低封装成本,并因缩短互连长度而有助于提升运行速度。通过3D堆叠,可以将2.5D封装中原本平铺在不同芯片上的功能单元,如计算逻辑、存储阵列、I/O接口在垂直维度上进行物理叠层与电气互连,从而突破平面集成的物理极限。
3D封装与3.5D封装便采用了3D堆叠技术。3D封装技术通过将多个裸芯片(Bare Die)进行垂直堆叠,并借助硅通孔和微凸块等先进互连技术实现层间通信,从而突破了传统平面集成的物理限制。这种架构极大地缩短了电子传输路径,在显著降低传输延迟与功耗的同时,实现了极高的互连带宽和封装密度。3.5D封装则是在3D垂直堆叠的基础上,再引入2.5D硅中介层(Interposer)进行横向扩展,形成“立体+平面”的复合架构。
当前国内主流AI芯片,如寒武纪、昆仑芯、壁仞科技、天数智芯等基本都通过2.5D封装技术将GPU/AI计算芯粒与HBM显存并排互连,利用硅中介层(Interposer)和RDL(重布线层)构建高密度互连网络。但这种显存外挂方案带宽普遍仅1–4TB/s,且受限于平面面积,集成密度和互连带宽已接近物理极限。
国际半导体巨头早已布局3D/3.5D,部分产品已进入量产交付阶段。
2023年,AMD发布了Instinct MI300系列AI加速器,这是一款采用3.5D封装技术并实现量产的芯片产品。AMD将其技术描述为3D堆叠GPU和I/O芯片通过混合键合融合,并与标准2.5D封装相结合。AMD的3.5D封装方案融合了台积电的CoWoS(2.5D硅中介层)和SoIC(3D混合键合)技术,通过Cu-Cu混合键合将GPU/CPU芯片垂直堆叠在I/O芯片之上,再依托CoWoS硅中介层与HBM3内存并排互连。
2024年12月,博通公司首次公开发布了业界首个3.5D XDSiP(eXtreme Dimension System in Package)封装平台。其结合了2.5D技术和采用Face-to-Face(F2F)面对面技术的3D-IC集成。该平台的核心是Face-to-Face(F2F)堆叠技术,采用无凸块混合铜键合(HCB)直接连接上下芯片的顶层金属,实现了上下两层芯片顶部金属层的直接连接。相比传统的面对背(F2B)技术,F2F无需依赖硅通孔,可让信号连接数量增加7倍,将芯片间界面的耗电量降低90%,并减少3D堆叠内运算、内存和I/O元件间的延迟时间。2026年已交付业界首款基于XDSiP的2nm定制计算SoC给富士通,用于AI超算集群。
英特尔的的EMIB 3.5D封装技术将EMIB 2.5D(嵌入式硅桥横向互连)与Foveros Direct 3D(混合键合垂直堆叠)结合,支持多种芯片异构灵活集成,兼容UCIe行业标准。英特尔数据中心GPU Max系列 SoC便是利用EMIB 3.5D打造的英特尔有史以来最复杂的量产型异构芯片,内含超千亿个晶体管、47个主动模块和5个制程节点。
最近高通的高带宽计算(HBC)技术采用创新的专用近存计算架构,通过3D堆叠硅基解决方案将计算与超高速带宽内存相融合,解决AI计算中的数据搬运瓶颈。搭载第一代HBC技术的AI250,单卡可实现业界领先的133TB/s带宽速率,与采用LPDDR5X的AI200相比,有效内存带宽提升18倍;搭载第二代HBC技术的AI300进一步实现阶梯式性能跃升,有效内存带宽较AI200提升54倍。
面对国际巨头在3D堆叠和3.5D封装上的领先布局,以及国内先进工艺产能和高端HBM供给受限,国产AI芯片厂商正积极探索通过3D堆叠技术,将存储单元和计算单元垂直集成。
紫光集团的紫弦架构以3D DRAM为核心,首创3.5D异质异构集成方案,存储带宽可达30TB/s。其PNM近存计算模式下访存延迟最多降低至1/18,模拟仿真显示同等算力下Token吞吐率较英伟达B200系列高出1.5-2倍,且可基于国内供应链规模化量产。
清微智能下一代AI芯片采用3.5D异构堆叠,实现可重构计算芯粒与DRAM存储芯粒的三维垂直堆叠,通过“计算芯粒+存储芯粒”的垂直集成,在先进工艺受限条件下,以架构创新换取性能跃升。其第二代 3D 可重构芯片突破性采用3D存算一体+四芯Chiplet集成技术,将传统芯片2D平面单车道传输模式,升级为“算力4车道+4层存储高架”的立体架构,大幅提升数据吞吐效率与算力密度,在性能、能效、灵活性上形成显著优势。
算苗科技旗下面向大模型推理的3D TokenPU芯片A4E已于6月15日正式流片,实现依托国产供应链、采用3D混合堆叠架构的大模型专用处理器落地。第一代产品A4E将8层存储晶圆垂直堆叠在计算逻辑晶圆上,通过硅通孔(TSV)与凸点(bump)技术实现微米级互联,将传统芯片间的“毫米级”传输距离压缩两个数量级,带来16TB/s的超大访存带宽,有效缓解数据饥饿问题。
云天励飞宣布正在研发的推理芯片引入3D堆叠存储架构:采用3D堆叠存储架构,以获得更高带宽与更低访问时延,突破“内存墙”,提升推理效率。
前身为快手集团的异构计算与芯片事业部的凌川科技下一代芯片已于今年4月完成流片,采用全国产3D堆叠技术,首创3D近存架构,针对散热、一致性、可靠性等行业关键痛点做了专项优化设计。其首款芯片SL200已累计销售近十万颗,部署至快手、阿里云、百度云、B站等互联网公司,覆盖快手99.7%直播转码业务,稳定服务7亿用户。
尽管3D堆叠前景广阔,但3D堆叠的工程化难度远超传统封装。
首先是热管理与散热。在传统的2D平面架构中,裸片产生的热量可以直接传导至顶部的均热板(Heat spreader)和散热器中。但在3D架构中,热量必须克服重重阻碍,垂直穿透多层硅片、TSV阵列、聚合物底部填充胶(Underfill)以及微凸块界面。对于2.5D集成结构,传统的空气冷却系统在大约300瓦的总功率下仍能维持运作;但当系统转入真正的3D垂直堆叠时,一旦封装总功率超过350瓦,基于空气的散热将完全失效,必须强制引入液冷系统与高性能的热界面材料。
其次是混合键合工艺与良率。无凸点混合铜键合(HCB)要求<10μm甚至1μm级的互连间距,对表面平整度(CMP)、键合精度、热膨胀匹配提出极高要求。硅桥与基板材料差异可能导致热膨胀不匹配,引发机械应力与裂纹;3D堆叠工艺复杂,良率提升依赖键合精度持续改进。
第三是EDA工具与设计协同。3D设计数据量爆炸性增长,IC设计师与封装工程师需深度协同;现有EDA工具难以同时处理热、信号、电源完整性多维优化,亟需发展热-电-机械协同设计平台。目前国际3家头部EDA企业均有针对3D堆叠芯片设计的一些工具支持,而反观本土EDA企业专门做3D堆叠芯片设计的全流程设计工具还比较少,有些企业可提供针对3D堆叠芯片仿真环节的部分点工具,但涉及到布局布线、多芯片验证、Multi-Die DFT测试等工具,国内仍存在较大空白。
第四是测试与可靠性。芯片3D堆叠封装技术的复杂性和高密度使得测试和可靠性成为了一个重要的挑战。需要开发新的测试方法和设备,以确保封装体的质量和可靠性。同时,还需要对封装体进行长期的可靠性评估,以确保其在各种环境下的稳定工作。
最后是组装复杂性与供应链。物理组装涉及不同厚度、不同热膨胀系数裸片的精密对准,需要密集的热机械认证工作;设计分析数据量远超标准封装。这也导致芯片3D堆叠封装技术的制造成本相对较高,需要不断优化制造工艺和降低制造成本,让芯片3D堆叠封装技术能够更广泛地应用于实际产品中。
后摩尔时代,晶体管微缩边际效益递减,先进封装已成为“超越摩尔”的关键。对于国产AI芯片而言,在先进制程和高端HBM进口受限的产业现实下,单纯追赶国际巨头的2.5D+HBM路线已难以形成差异化竞争力。从紫光的紫弦架构到清微智能的3.5D异构堆叠,国产厂商正在证明:当平面扩展触及物理极限,向上生长,用三维维度重新定义芯片的集成方式或许正是打破“内存墙”与“面积墙”、在全球AI算力竞赛中实现弯道超车的关键所在。
