近年来,生成式人工智能的进步和广泛应用,使人们重新认识到半导体存储器,特别是DRAM 的重要性。此外,旨在通过垂直堆叠DRAM芯片或存储单元来提高容量和速度的3D DRAM技术正在快速发展。
博主Damnang2日前在一个分享中更是透露,最近,他参加了SK海力士美洲法人社长举办的技术研讨会,在那里听到的一句话让他印象深刻的话:“如果但是看3D DRAM,中国已经领先于SK海力士。”

看到这句话,笔者一方面体会到海外巨头的棒杀。另一方面,这或多或少体现了国内企业和研究机构这些年在3D DRAM的研究终于被看到了。
众所周知,传统DRAM主要通过缩小二维(2D)硅晶片上的电路图案尺寸来提高存储容量。然而,随着缩小尺寸的有效性接近物理极限,为了获得更大的容量(更高的密度)和更快的速度,必须在高度方向上堆叠多层结构。3D DRAM应运而生并投入实际应用,以满足这些需求。
为此,在这篇文章中,我们打算给大家深度科普一下3D DRAM。
3D DRAM的加速发展是由应用领域对更大容量和更快速度DRAM日益增长的需求所驱动的。
众所周知,为了使生成式人工智能更加智能,并满足日益增长的人工智能用户需求, GPU和各种人工智能加速器等处理器需要不断提升性能。在股市上,全球最大的GPU制造商英伟达( NVIDIA )的股价也随着人工智能应用的扩展而飙升。然而,对于人工智能的演进和普及而言,比处理器更重要的是DRAM容量和速度的提升。这是因为最新的人工智能模型规模要大得多,因此必须能够可靠地提供与GPU和其他处理器在训练和推理过程中处理速度相匹配的数据量。在人工智能系统中,DRAM的规格质量对整个系统的性能和功耗都产生了更大的影响。此外,人工智能系统中高随机内存访问的频率远高于科学技术计算(后者是高负载计算处理的典型例子)。因此,计算性能往往取决于DRAM的带宽。
然而,目前的DRAM仅依赖于基于小型化的二维(平面)密度提升,这使得容量和速度的进一步提升变得困难。
DRAM单元的结构限制是其面临的一大挑战。DRAM单元通常采用1T1C结构,由一个控制数据访问的晶体管和一个以电荷形式存储数据的电容器组成。因此,除非晶体管和电容器都小型化,否则单元的小型化是不可能的。然而,电容器必须能够存储一定量的电荷才能存储数据,这使得小型化变得困难。虽然3D电容器结构(例如沟槽和堆叠结构)技术已经开发并投入实际应用,但利用这些方法提高电容值也变得越来越困难。
此外,随着晶体管小型化,漏电流增大,导致刷新功耗(维持电荷所需的周期性更新操作)和数据保持过程中产生的热量增加。另外,随着小型化程度的提高,制造工艺变得更加复杂精密,制造成本也随之增加。DRAM的发展需要降低每比特成本,因此,引入无法降低成本的方法将变得毫无意义。
于是,向3D DRAM转型,已经成为了大势所趋。正如Lam Research在此前的一篇报道中所说,半导体存储器行业以前也经历过这种情况。
十多年前,NAND闪存遇到了瓶颈。平面缩放——即缩小平面上的存储单元尺寸——已经无法满足物理定律。存储单元尺寸越来越小,开始相互干扰,数据保持能力下降,良率也随之降低。业界的应对之策是转向垂直方向,将存储单元堆叠成3D结构,以牺牲横向密度为代价换取纵向容量。这种方法奏效了,但转型过程远比大多数非晶圆厂从业人员预想的要艰难得多。
如今,DRAM 也正面临类似的转折点。人工智能工作负载已将内存带宽推向关键的系统瓶颈,DRAM 制造商正将平面技术推进到第六代 10 纳米级芯片。DRAM 制造商正在探索面向 10 纳米以下时代的新型 4F² 架构,但单元电容和晶体管面积的减小将使 DRAM 接近器件物理极限,这也要求 DRAM向垂直方向发展。
虽然3D DRAM被讨论很多,但如大家所见,3D DRAM既有狭义定义,也有广义定义。截至2026年初,新闻报道和文献中经常同时使用这两种定义,却不明确指出指的是哪一种,这造成了相当大的混乱。读者在解读文档时需要清楚地了解作者所使用的含义。因此,我们首先来澄清一下这两种定义。
狭义上的3D DRAM指的是一种DRAM ,其中用于存储数据的存储单元通过前端工艺垂直堆叠在单个硅芯片(单片芯片)上。为避免误解,这种3D DRAM有时也被称为单片3D DRAM 、垂直DRAM或真正的3D DRAM 。在本文中,我们将狭义上的3D DRAM称为单片3D DRAM 。
在用于临时数据存储的DRAM出现之前,采用单片单元堆叠结构的3D NAND闪存(即NAND闪存)已作为数据记录存储器投入实际应用。这是因为NAND闪存的单元结构相对简单,使得单元的3D堆叠相对容易(与DRAM相比,实际技术难度较高)。相比之下,单片3D DRAM的技术难度极高,尚未投入实际应用。三星电子(韩国)正积极推进单片3D DRAM技术的研发,计划于2025年实现,并在2020年代末期推向市场。SK海力士(韩国)也在加速推进垂直结构的基础研究,目标是在2030年前后实现商业化。
此外,目前专注于NAND闪存的制造商铠侠( Kioxia )在一次学术会议上发布了新的单片3D DRAM技术,引起了广泛关注。最初,3D NAND技术是由铠侠的前身东芝公司开发的,该公司在3D单元堆叠方面积累了丰富的技术。预计该公司将在2030年代进军DRAM业务。
广义而言, “DRAM”一词不仅包括单片3D DRAM ,还包括一种名为“ HBM(高带宽内存)”的DRAM ,它由多个垂直堆叠的DRAM芯片组成。HBM已投入实际应用,与NVIDIA 的GPU集成在同一电路板上,并因人工智能数据中心需求激增导致的内存短缺而广为人知。三大DRAM制造商——三星、SK海力士和美光科技(美国) ——正在将其商业化。符合“ HBM4 ”接口标准的产品现已上市,该标准集成了多达16层芯片,每个芯片的带宽高达2 TB/s (太字节/秒)。
HBM是一种DRAM ,其存储单元以二维方式集成在同一芯片上。芯片在前端工艺中完成制造,然后在后端工艺中以三维方式堆叠,芯片之间通过称为TSV (硅通孔)的布线技术连接。由于它不像单片3D DRAM那样需要对前端工艺进行根本性改变,因此能够更早地投入实际应用。又因为它是一种采用已投入实际应用的三维结构的DRAM ,所以通常被称为3D DRAM。HBM型DRAM有时也被明确区分,称为3D堆叠DRAM或3D封装DRAM 。以下我们将统一称其为3D堆叠DRAM 。
专家认为,这两种3D DRAM技术不太可能完全取代彼此;相反,它们将根据所需的性能指标是“带宽”还是“容量密度”而被有选择地使用
单片3D DRAM旨在大幅提升“容量密度”并降低“每比特成本” 。正如3D NAND相比2D NAND显著提高了存储密度一样,它将使单片晶圆的存储容量提高数倍甚至数十倍。虽然初期投资较高,但一旦实现量产,就可以通过增加层数来有效降低每比特成本,这与3D NAND类似。
此外,通过缩短用于读写数据的位线和字线,可以改善单元访问延迟时间。由线路引起的寄生电容和电阻(RC延迟)可以降至最低,预计内存访问期间的能耗也能降低。另外,通过使用IGZO等新型材料,可以将刷新间隔延长至几秒甚至几分钟,从而显著降低待机功耗。
这些特性使得单片式3D DRAM适用于未来的“边缘AI ”和“主流计算” 。具体而言,这包括智能手机中的设备端AI 、自动驾驶汽车中的实时推理引擎以及笔记本电脑中的高能效、高容量内存。尤其值得一提的是,采用IGZO技术的低漏电3D DRAM有望成为移动设备中替代传统DRAM的有力候选方案,尤其是在电池续航时间至关重要的移动设备中。
另一方面,类似HBM这样的3D堆叠式DRAM的最大优势在于其压倒性的“带宽”。在HBM4代产品中,接口位已扩展至2048位,单堆叠带宽超过2TB / s 。这足以满足拥有数千个计算核心的GPU持续数据供应的需求。HBM采用“宽而慢”的策略(降低时钟频率并提高并行度) ,在实现海量数据吞吐量的同时提升了能效。通常,DRAM的访问速度取决于单元访问延迟时间、数据传输速率(引脚速度)和总带宽。其中,只有总带宽可以通过3D堆叠式DRAM得到提升。由于它本质上是堆叠2D DRAM芯片,因此单元访问延迟时间几乎保持不变。
此外,多层DRAM芯片堆叠形成TSV ,并采用昂贵的中介层和先进的封装技术。因此,制造成本极高,但当前人工智能的蓬勃发展使其平均售价(ASP)也居高不下。然而,在将其集成到通用PC和智能手机之前,仍有诸多重大障碍需要克服。
这些特性使得3D堆叠式DRAM非常适合高性能计算 (HPC) ,例如数据中心的AI训练、科学计算和高端图形,这些应用都需要最高的性能。
关于HBM已经讨论了很多,我们接下来谈一下单片式3D DRAM。
接下来,我们将介绍单片式3D DRAM和3D堆叠式DRAM ( HBM )在内部结构和制造技术上的差异。
首先是单片式3D DRAM 。在这种类型的3D DRAM中,存储单元本身垂直构建在单个硅晶圆上。多层结构在晶圆加工阶段完成,芯片切割出来时已经集成了数层到数十层存储层。在传统的2D DRAM中,一个存储单元由1T1C组成,排列在一个平面上;而在单元堆叠式3D DRAM中,这些单元是垂直堆叠的。

左图:(a)具有垂直位线的结构;(b)垂直字线的实现方法。条状部分为电容器。右图:(a)沟道附近的结构;(b)垂直字线中的阶梯状水平位线;(c)垂直位线结构中沟道和字线的堆叠结构。
实现这一目标的核心技术是“垂直沟道晶体管(VCT:vertical channel transistor)”结构。传统晶体管的沟道呈水平方向,而VCT则将沟道垂直排列,并采用“环栅(GAA)”结构,即栅极环绕沟道。这项技术由日本Rapidus公司开发,目前已应用于2nm及以下制程的逻辑芯片中,并开始投入实际应用。该技术显著减小了芯片占用面积(单元尺寸) ,同时抑制了漏电流,从而实现了超高密度。
此外,对于堆叠式单元设计,除了垂直形成电容器的方法外,引入“ 2T0C(2个晶体管,0个电容器)”结构也被认为是一种很有前景的方法,这种结构无需使用电容器本身。它采用氧化铟镓锌(IGZO )这种氧化物半导体,通过将电荷存储在晶体管沟道中,从而无需使用难以制造的高纵横比电容器。IGZO是一项日本发明的技术,也应用于控制液晶面板运行的薄膜晶体管(TFT)中。
具体而言,在3D堆叠式DRAM中,多个芯片堆叠在一起,每一层DRAM芯片都被减薄到极薄的程度,信号通过数千个穿透芯片的TSV(硅通孔)传输到上下两层芯片(。这使得总线宽度可以达到1024位甚至更高。考虑到传统的通用内存(例如DDR5)以几十位为单位输出数据,其并行处理能力是压倒性的。此外,在与GPU和其他设备结合使用的HBM中,采用了2.5D安装配置,其中DRAM通过称为硅中介层的中间基板放置在靠近处理器芯片的位置。

在堆叠式内存芯片的最底层是一个称为“基本逻辑芯片”的逻辑芯片。该逻辑芯片控制着上面堆叠的多个DRAM芯片与外部处理器之间的接口,并在信号放大和纠错方面发挥作用。
目前市售的基于HBM的DRAM芯片层数通常为4层(4-Hi)或更多,其中8层(8-Hi)和12层(12-Hi)产品为主流。预计16层(16 -Hi)产品的商业化将在2026年加速推进。16 -Hi指的是16个DRAM芯片堆叠在一起,底层逻辑芯片不计入层数。
要实现上述产品,存储芯片采用以下技术进行堆叠:
1. TSV (全稳定通孔)形成技术。为了制造垂直穿透芯片的深而窄的孔,需要先进的等离子蚀刻技术,类似于博世工艺(一种通过反复蚀刻和形成保护膜来制造深而形状良好的孔的技术)。
2.热压键合( TCB )技术。该技术需要在施加热量和压力的同时熔化微凸点(焊料)进行连接。精确的对准和温度控制是该工艺的关键。然而,当层数超过 16 层时,焊点的累积高度将超过封装高度限制,这使得尽可能薄地制造焊点层成为一项挑战。
3. MR-MUF (整体回流注塑成型底部填充)技术。该技术是在芯片堆叠完成后,一步完成液态封装材料的注入和固化。SK海力士在该技术领域实力雄厚。虽然该技术具有高导热性和优异的制造效率,但随着层数的增加,均匀注入的技术难度也随之增加,成为一项挑战。
4.混合键合(Cu-Cu)技术。这是未来产品(例如HBM5及更高版本)中预期的终极键合技术。它无需焊球即可将铜线表面直接键合在一起。通过消除连接处的焊球,堆叠高度得以最小化,I /O密度可提高10倍以上。该工艺需要使用CMP (化学机械抛光)设备对晶圆表面进行原子级平整化处理,以及能够达到最高洁净度的清洗设备。
为了实现单片式3D DRAM ,必须在前端工艺(晶圆工艺)中引入新技术。虽然可以借鉴3D NAND的经验,但还需要独特的技术来实现DRAM特有的高速运行和数据保持特性。具体而言,单元堆叠采用以下技术。
1.高纵横比刻蚀。形成穿透数十层存储单元的微孔需要具有极高选择性和方向性的刻蚀技术。等离子刻蚀设备用于精确制造纵横比超过100 : 1的超细孔。
2.利用原子层沉积(ALD)技术形成薄膜。需要在垂直钻孔的内壁上精确形成厚度为一个原子层的均匀绝缘薄膜或沟道材料。特别是,先进的ALD技术对于均匀堆叠多元素氧化物(例如IGZO)至关重要。
3.离子切割和晶圆键合。作为实现单元堆叠的另一种方法,一种技术被提出,该技术通过注入氢离子将一层薄的单晶硅从晶圆上剥离,然后将其转移到另一片晶圆上并进行键合。这使得可以使用高质量的单晶硅而不是多晶硅来形成多层晶体管层。
4.新材料的引入。采用新材料,例如用IGZO沟道代替传统的硅,采用新型高k材料提高电容器的介电常数,以及采用钴(Co)和钌(Ru)降低布线电阻,预计将对实现3D DRAM至关重要。
Lam Reserch则以3D NAND为例讲述了3D DRAM的复杂性。
在NAND闪存中采用垂直结构意味着需要以极高的精度蚀刻穿过数十层交替材料层的通道。我们必须以前所未有的高纵横比填充这些通道及其间的空隙,且不能出现任何空隙或接缝。这是业界在大规模生产中从未尝试过的。此外,我们还必须找到在传统化学气相沉积技术无法触及的结构深处沉积均匀薄膜的方法。每增加一层,复杂性都会成倍增加。
DRAM 向 3D 化转型之路与 NAND 闪存的转型历程有着明显的相似之处。驱动这一转变的物理原理相同——平面缩放最终会达到极限,而垂直堆叠可以突破这一极限。制造工艺方面的影响也类似:更高的结构意味着更高的纵横比,这就需要更精确的刻蚀、更均匀的沉积以及每片晶圆上更多的工艺步骤(我们称之为沉积和刻蚀强度)。
Lam Reserch在报道进一步指出,人工智能正在不断提高DRAM的性能、带宽和能效要求,这不仅增加了执行错误的成本,也提升了成熟工艺领先优势的价值。现代人工智能加速器能够执行海量的并行计算,但只有当数据到达速度足够快,能够持续为其提供数据时,它们才能满负荷运行。DRAM作为工作内存,负责提供数据,随着模型规模的扩大和推理工作负载的扩展,对带宽、容量和能效的需求已经超过了当前架构的承载能力。这就是所谓的“内存墙”,它已成为制约人工智能系统性能的关键瓶颈。
这种压力正推动DRAM架构的演进。高带宽内存解决方案已经开始采用硅通孔技术堆叠DRAM芯片,预计到2028年将达到16层。在器件方面,更紧凑的单元布局以及最终向3D技术的过渡,将需要与NAND闪存转型时期相同的高纵横比蚀刻、精密沉积和先进图案化技术。
这就是类比失效的地方,而理解这一点对于材料和工具设计方面的关键决策至关重要。
NAND 是一种存储“热数据”和“冷数据”的存储技术。当业界转向 3D NAND 时,主要的工程挑战在于结构和材料方面——蚀刻深度要足够,填充要足够均匀,堆叠要足够可靠。速度,即纳秒级的访问时间,并非主要限制因素。
DRAM是工作内存,它不断写入数据,为超高速CPU和GPU提供“热数据”。DRAM需要几乎无限(10^16)次的读写循环,而NAND闪存的读写循环次数只有几千次。每一次读写操作的时间尺度都直接影响系统性能。当DRAM采用垂直堆叠结构时,工程师不能仅仅优化密度和良率。他们必须在保持信号完整性、最大限度降低延迟、控制堆叠层间的电阻的同时,还要达到垂直堆叠架构所需的结构精度。
这意味着堆叠结构的每一层都需要更严格的电气规格。由于信号必须穿过更多材料而不发生衰减,因此字线电阻变得更加关键。即使周围几何结构发生根本性变化,每个单元中存储电荷的电容器也需要保持其性能特性。
还有更复杂的情况。与NAND闪存不同,NAND闪存在平面工艺发展停滞后,业界基本转向了3D工艺,而DRAM制造商却在积极推进平面工艺的发展,其步伐甚至超过了许多人的预期。从6F²到4F²的转变显著提高了蚀刻、沉积和图形化的强度,同时延长了平面DRAM的使用寿命。这些工艺节点并非等待3D工艺的到来;它们正是Lam公司目前已经开始从中获利的领域。随着DRAM最终向垂直方向发展,4F²工艺的优势将进一步增强。这种双重性——既要支持当今最先进的平面工艺节点,又要支持未来的3D架构——是我们NAND转型时期无需面对的战略和工程挑战。
为了进一步扩大这两种类型的3D DRAM的使用,需要解决几个重大挑战。
首先,我们来考虑散热管理。芯片或单元堆叠密度的提高意味着散热空间越来越小。尤其是在HBM直接堆叠在GPU上的结构中,GPU运行过程中产生的热量可能会降低DRAM的保持特性,或者由于热膨胀导致结失效。因此,使用导热系数更高的封装材料以及设计垂直散热路径就显得至关重要。
接下来是测试和良率的难题。对于传统的DRAM ,封装前很容易测试和修复(切换到冗余电路)缺陷单元。然而,对于采用混合键合技术的单元堆叠式3D DRAM和芯片堆叠式DRAM ,一旦层堆叠完成,访问和修复中间层就变得极其困难。这就需要进一步提高“已知良品芯片(KGD) ”选择的准确性,从而增加了制造成本。
接下来是标准化和生态系统建设。目前,HBM主要依赖于NVIDIA 、SK海力士和台积电(台湾)等几家巨头公司的紧密合作。然而,要让3D DRAM普及到普通PC和智能手机,就需要JEDEC等组织制定开放的标准化方案,并建立一个允许各种设备和材料制造商参与的生态系统。特别是对于单元堆叠式3D DRAM ,主流技术和芯片结构尚未确立,行业标准的争夺预计还将持续。
DRAM的3D转型并非仅仅是技术上的“附加功能” ,而是对DRAM架构的根本性重新定义。到2030年,哪些技术将成为主流?哪些公司将引领行业发展?观察这些趋势将有助于我们洞悉人工智能时代商业生态系统的未来。
