当前,数据中心正面临一场新危机——不是算力不够,而是内存太贵。
近年来,随着大模型推理、内存数据库、高性能计算等AI业务的规模化快速扩张,正在将数据中心推向内存资源的临界点。曾经作为服务器标配组件的DRAM,如今已成了最昂贵、最稀缺的基础设施资源,价格暴涨与供给刚性,成为制约着AI算力部署节奏的关键因素。
根据Counterpoint Research的追踪数据显示,64GB DIMM内存的价格在2025年第三季度到2026年第一季度之间已上涨3.5倍,且涨势尚未见顶——预计到2026年第三季度,累计涨幅将达到5倍。
TrendForce的数据更加直观:2026年第一季度DRAM合约价季增幅度高达93%至98%,带动全球DRAM产业整体营收环比增长81%,达到970亿美元。进入第二季度,涨势仍未停歇,合约价预计再涨58%至63%。
现货市场的信号更为直观:当前服务器级DDR5 RDIMM的现货单价区间达每GB 27至37美元,仅搭建一个12TB的内存池,纯DRAM硬件采购成本就接近50万美元。
这轮涨价风暴的根源,在于HBM对DRAM产能的持续蚕食。
据相关数据披露,随着AI训练与推理对高带宽内存的需求爆发,HBM在DRAM晶圆产能中的占比已从2020年的2%攀升至2026年预估的25%。三星、SK海力士、美光三大原厂纷纷将优质产能向高毛利的HBM倾斜,2025至2027年HBM投片量占整体DRAM投片量的比例分别为18%、22%和约30%。一片HBM晶圆要消耗约三片DDR5的产能,三大原厂主动削减手机、PC的低毛利订单,把产能全力倒向AI。再考虑到超大规模云厂商又以多年期长单提前锁定未来晶圆产出,进一步压缩了面向服务器领域的标准DRAM供给。
而供给端的刚性,决定了短缺难以在短期内缓解。
先进DRAM制程高度依赖EUV光刻机,单台设备售价高达约2亿美元,一座现代化晶圆厂的投资动辄数百亿美元,即便一切顺利,建设周期也长达数年。产能扩张的速度,远远追不上AI需求增长的脚步。
杰富瑞预计,若不计入国产厂商影响,2026年全球存储bit供给增长仅为7%至8%。DRAM与NAND合计可能出现约15万至20万片/月的供给缺口。美光科技在2026第三财季财报中表示,即使行业供应可能在2028年逐步改善,目前仍难以判断存储供给何时能够追上持续增长的需求。
此外,压力早已从数据中心蔓延至消费端。
Xbox首席执行官Asha Sharma公开表示,过去两年间内存成本上涨了约五倍,直接导致公司无法生产足够数量的游戏主机来满足市场需求。苹果也宣布相继对iPhone、Mac、iPad等产品进行涨价。
摩根士丹利分析师Shawn Kim团队更是直言,内存价格飙升与供应稀缺正演变为数字经济的全面风险,“从AI基础设施的瓶颈,蔓延至硬件利润率、设备可负担性、云成本、通胀乃至政策层面”。
在服务器物料清单中,DRAM的占比变化更能说明问题。2023年,DRAM约占服务器整机成本的50%;到2026年年中,这一比例已攀升至60%至90%,平均约75%。CPU的价格并没有下降,但在内存价格飞涨的映衬下,CPU的涨价幅度显得微不足道。
更讽刺的是,花了大价钱采购的内存,实际利用率并不高——Meta等超大规模厂商的实测数据显示,数据中心的内存普遍仅有约一半容量承载着活跃的“热数据”,大量冷数据长期占据着昂贵的DRAM资源。
面对DRAM的昂贵与稀缺,行业玩家开始另辟蹊径——不再单纯堆硬件,而是用技术手段减少对DRAM的依赖。
AMD选择了最轻量的软件切入路径。
2026年6月,AMD宣布收购内存优化厂商MEXT,其核心目标就是引入通过AI驱动的内存分层技术,将冷数据从高价DRAM下沉到低成本NAND闪存,实现有效内存容量的低成本扩张。
据悉,MEXT成立于2023年,创始团队大有来头——联合创始人兼CEO Gary Smerdon曾是Fusion-io的首席战略和产品官,将闪存存储大规模商业化的先行者,十多年前,苹果和Meta Platforms都是其主要客户。
MEXT针对内存效率瓶颈,推出了一项基于AI的分层内存(memory tiering)技术。这项技术能将低频率访问的数据,从昂贵的DRAM移转至每单位容量成本远低的NAND型闪存,且不影响应用程序运作。
MEXT的核心产品是预测内存引擎(Predictive Memory Engine),一套完全基于软件的内存分层方案:它以内存页为粒度持续监测应用的访问模式,自动将低频访问的冷数据迁移到NAND闪存中——闪存每比特成本仅约为DRAM的1/55;同时通过AI模型学习工作负载的访问规律,预测即将被调用的数据页,在应用发起请求前就主动将其预取回到DRAM,让软件能够像直接访问主存储器般读取数据,进而确保效能不受影响。

图源:Nextplat
整套机制对操作系统和上层应用完全透明,无需修改任何业务代码,也不需要新增专用硬件,数分钟即可完成部署。
官方数据显示,该方案可将系统有效内存容量提升2至4倍,基础设施整体成本下降约50%。在Neo4j图数据库、EDA仿真、影视渲染等典型场景中,DRAM与闪存1:1配比的配置,可达到纯DRAM配置约95%的吞吐量,成本却大幅降低。
MEXT之前针对戴尔服务器以及AWS云实例进行了对比测试:

戴尔电脑/AWS配备和未配备MEXT扩展内存的对比图(图源:Nextplat)
已经在使用MEXT内存扩展时,内存和闪存比例为1:1和1:3时Neo4j图数据库的性能和性价比:

图源:Nextplat
MEXT的思路虽说不是革命性的——内存分层、把冷数据迁到更便宜的存储介质上,这些概念其实都已经存在了相当长的时间。但以往的技术没能在数据中心大规模落地,关键就在于预测算法的准确度不够。一旦预判失准,程序在需要数据时才从闪存搬回DRAM,延迟就会直接暴露,性能损失根本无法接受。
MEXT的突破在于用AI模型来干这件事。它的预测内存引擎持续分析内存访问模式,通过AI判断哪些数据页接下来最有可能被用到,然后在应用程序真正发起请求之前,就主动把数据从闪存迁回到DRAM。
对AMD而言,这笔收购补上了自身全栈能力的关键一块。在EPYC CPU、Instinct GPU与ROCm软件栈之外,MEXT带来的内存效率层,让AMD能够为客户提供从芯片到数据流调度的完整解决方案,既帮助客户降低总拥有成本、减少GPU“等数据”的闲置,也强化了自身在AI基础设施市场的竞争力。
收购消息公布当日,AMD股价盘中上涨近7%,市场用投票表达了对这一路径的认可。
当然也得说一句,MEXT的技术最终能在AMD的数据中心产品中落地到什么程度,还有待时间来检验。NAND闪存和DRAM在延迟上的物理差异是客观存在的,仅靠软件层面的AI预测能否真正弥合这道鸿沟,还需要看大规模部署后的实际表现。
当数据中心在为DRAM成本头疼,消费端也面临着同样的约束——手机等终端的DRAM容量极为有限,却要承载端侧大模型的推理需求。苹果给出的答案,是让大模型常驻闪存,按需加载到内存。
苹果最新的AFM 3 Core Advanced是一款200亿参数的端侧大模型,若按传统方式全部加载到DRAM,远超消费级设备的内存上限。苹果通过稀疏激活架构破解了这一难题:完整模型全部存放在NAND闪存中,推理时不加载全部权重,而是根据输入提示词一次性选定本次推理所需的专家模块,仅将10亿到40亿参数的工作集调入DRAM。

AFM 3 Core Advanced模型架构示意图
与传统MoE模型逐Token切换专家、导致频繁数据搬运不同,苹果采用按提示词粒度的路由机制,配合高比例常驻DRAM的共享专家,大幅减少了闪存与内存之间的交换次数,将加载延迟降到最低。再结合指令级剪枝(IFP)、Transformer层精简等优化,最终将200亿参数模型的DRAM峰值占用控制在2GB至8GB区间,进一步平衡了内存占用与计算效率,有效解决了MoE在端侧部署时DRAM占用过大的问题,使其能够在iPhone等终端设备上流畅运行,实现了“大模型小内存”的端侧推理。
这套架构并非临时攻关的产物。
实际上,早在2024年,苹果研究团队就发表了《LLM in a Flash》论文,系统验证了将大模型参数存放于闪存、按需调度的技术路径,在降低云端运算成本的同时,为端侧AI应用提供可行的内存架构支撑,可在CPU和GPU上分别实现比朴素加载快4至5倍和20至25倍的推理速度。

当DRAM涨价从产业端传导至消费电子,这套方案既支撑了端侧AI的体验,也降低了设备对大容量DRAM的依赖。
综合来看,AMD和Apple的两大路径分别针对数据中心与端侧同步演进,但共同指向同一结论:AI推理的内存层级正在重构,低频KV缓存、模型权重及端侧数据,将逐步从高价的HBM/DRAM下沉至NAND Flash/SSD层,形成多层次存储架构。
这一架构转变正沿产业链形成多层次的传导效应。据Citrini Research梳理,最直接的受益层是NAND原厂。
如果说AMD和苹果走的是软件和架构优化的路线,Marvell则选择了硬件层面的突破,依托CXL高速互连协议,用硬件内联压缩技术直接提升物理DRAM的等效容量。
2026年6月,Marvell发布Structera系列CXL控制器——Structera X(内存扩展控制器)和Structera A(近内存加速器)。两款芯片都内置了自研的CDB(Compression-Decompression Block)硬件压缩模块。
据了解,数据写入DRAM时,CDB模块会通过定制化LZ4无损算法实时压缩;读取时则同步完成解压。整个过程在内存链路中独立完成,不占用主机CPU算力,也对上层应用完全透明。根据数据类型不同,1GB物理DRAM可发挥2至3.64倍的等效逻辑容量——在混合数据库业务场景下,平均压缩比可达3.64:1,相当于用不到三分之一的物理内存满足同等业务需求。
除此之外,这套方案还有两重降本价值:一是旧内存复用,Structera X控制器支持DDR4内存接入,可将退役的DDR4内存纳入CXL内存池,减少对昂贵DDR5的新增采购;二是内存池化,通过CXL协议打破单CPU对内存的独占限制,让多台服务器共享内存资源,消化系统中的闲置容量。
按当前DDR5每GB 27至37美元的现货价计算,一个12TB的内存池仅DRAM硬件成本就接近50万美元;若按3倍压缩比估算,物理DRAM采购量可缩减三分之二,单池就能节省三十余万美元。
对动辄数万节点的云厂商而言,这意味着巨额的资本开支优化。目前Structera已是业内首款量产的搭载硬件内联压缩的CXL控制器,相关技术方案已提交OCP开放计算项目标准化,未来适配范围将进一步扩大。
Sandisk(闪迪)的解法更加激进——从封装层面重构AI芯片的内存架构。
Sandisk正联合SK海力士推动高带宽闪存(HBF)标准化,试图让NAND闪存进一步靠近计算核心,打造HBM与SSD之间的全新存储层级。
Sandisk的专利方案提出了“GPU下的NAND”架构:将高容量NAND闪存堆叠在GPU或AI加速器的正下方,周围环绕HBM堆叠,通过大幅缩短数据传输距离,提升闪存的访问带宽。按照规划,HBF将与HBM4物理兼容,容量可达同体积HBM的8至16倍,成本则具备显著优势,主打长上下文推理、KV缓存、模型权重流式加载等读取密集型场景。
这种被称作HBF(High Bandwidth Flash,高带宽闪存)的技术,定位在HBM和SSD之间。如果把HBM比作摊在桌面上的“参考书”,那基于NAND的HBF就是放在GPU旁边的“书柜”。HBM处理必须立即响应的数据,而GPU下方的NAND存储更大的数据并进行反复读写。
闪迪的目标是开发带宽接近HBM的HBF,以类似成本提供8到16倍HBM的容量。2026年2月,闪迪与SK海力士正式启动了HBF规范标准化联盟。SK海力士贡献其在HBM中积累的堆叠、封装与中介层技术,闪迪则带来NAND和闪存设计的能力。双方计划在2026年下半年推出首批HBF样品,2027年初应用于AI推理设备。目标是构建三级内存架构:HBM负责超低延迟的即时计算,HBF承接大容量、高吞吐的反复读取数据,SSD则承载冷存储,各层级各司其职。
当然,HBF走向大规模商业化仍需跨越多重关卡。计算芯片与NAND堆叠带来的高热密度、混合键合与复杂布线的良率挑战、以及冷热数据分层调度的软件生态,都需要时间逐步打磨。
据韩国新荣证券预计,HBF市场有望在2027年形成,到2030年增长至120亿美元的规模。
说起来,用闪存来扩展主内存并非新鲜事。
早在2015年,英特尔与美光就联合推出了3D XPoint存储技术,其愿景恰好命中了今天的行业痛点——打造一种性能介于DRAM和NAND闪存之间、支持字节寻址、成本接近闪存的新型存储介质,在内存与传统存储之间构建一个新的层级。
遗憾的是,3D XPoint最终没能兑现最初的承诺。
制程研发的滞后让它的成本一路追平DRAM,性能却仅比普通闪存快数倍;加之英特尔将其绑定自家Xeon处理器的封闭策略,使其始终无法进入主流市场。最终项目终止,英特尔的闪存业务也被出售给SK海力士,这项曾被寄予厚望的技术,成了存储行业一段令人唏嘘的注脚。
如果英特尔当初没有放弃3D XPoint,如今的利润该有多丰厚?可惜历史没有如果。
此外,国内一些做存算一体、内存池化解决方案的初创公司,接下来估计也会受到更多关注。毕竟在DRAM价格高企、供给侧又被挤占的大背景下,谁能拿出一套真正靠谱的内存优化方案,谁就可能在资本市场上拿到下一轮入场券。
从3D XPoint的折戟到今天多种路径并行,存储行业对内存效率的探索从未止步。
AMD用AI预测来调度冷热数据、Apple用稀疏激活和闪存存储来压缩端侧内存占用、Marvell用硬件压缩让物理内存发挥更大效用、闪迪用3D堆叠把NAND搬到GPU脚下——四家公司的技术路径各不相同,但指向同一个方向:AI推理的内存层级正在重构——热数据留在DRAM与HBM中保障性能,温冷数据逐步下沉到闪存层承接容量,多层介质协同平衡性能与成本。
DRAM的昂贵,正在把整个行业“逼上了梁山”。但正是这种压力,催生出了一系列令人眼前一亮的技术创新。
不可否认,闪存与DRAM在延迟上的物理鸿沟始终存在,各类方案的实际表现仍需大规模部署的验证。但可以确定的是,单纯堆砌DRAM来解决问题的时代正在过去,更高效、更分层的内存体系,已是行业前行的新方向。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
