天下苦DRAM久矣 - 云计算

Just Quick Just Quality

热门话题

白天

搜索

资讯

天下苦DRAM久矣

11 小时前 / 阅读约16分钟

来源：36kr

数据中心面临内存昂贵与稀缺问题，AI需求推动HBM对DRAM产能蚕食，供给刚性难缓解。AMD、Apple、Marvell、闪迪等企业通过AI预测、架构优化、硬件压缩、封装重构等方案减少对DRAM依赖，重构AI推理内存层级。

当前，数据中心正面临一场新危机——不是算力不够，而是内存太贵。

近年来，随着大模型推理、内存数据库、高性能计算等AI业务的规模化快速扩张，正在将数据中心推向内存资源的临界点。曾经作为服务器标配组件的DRAM，如今已成了最昂贵、最稀缺的基础设施资源，价格暴涨与供给刚性，成为制约着AI算力部署节奏的关键因素。

根据Counterpoint Research的追踪数据显示，64GB DIMM内存的价格在2025年第三季度到2026年第一季度之间已上涨3.5倍，且涨势尚未见顶——预计到2026年第三季度，累计涨幅将达到5倍。

TrendForce的数据更加直观：2026年第一季度DRAM合约价季增幅度高达93%至98%，带动全球DRAM产业整体营收环比增长81%，达到970亿美元。进入第二季度，涨势仍未停歇，合约价预计再涨58%至63%。

现货市场的信号更为直观：当前服务器级DDR5 RDIMM的现货单价区间达每GB 27至37美元，仅搭建一个12TB的内存池，纯DRAM硬件采购成本就接近50万美元。

DRAM危机，全面爆发

这轮涨价风暴的根源，在于HBM对DRAM产能的持续蚕食。

据相关数据披露，随着AI训练与推理对高带宽内存的需求爆发，HBM在DRAM晶圆产能中的占比已从2020年的2%攀升至2026年预估的25%。三星、SK海力士、美光三大原厂纷纷将优质产能向高毛利的HBM倾斜，2025至2027年HBM投片量占整体DRAM投片量的比例分别为18%、22%和约30%。一片HBM晶圆要消耗约三片DDR5的产能，三大原厂主动削减手机、PC的低毛利订单，把产能全力倒向AI。再考虑到超大规模云厂商又以多年期长单提前锁定未来晶圆产出，进一步压缩了面向服务器领域的标准DRAM供给。

而供给端的刚性，决定了短缺难以在短期内缓解。

先进DRAM制程高度依赖EUV光刻机，单台设备售价高达约2亿美元，一座现代化晶圆厂的投资动辄数百亿美元，即便一切顺利，建设周期也长达数年。产能扩张的速度，远远追不上AI需求增长的脚步。

杰富瑞预计，若不计入国产厂商影响，2026年全球存储bit供给增长仅为7%至8%。DRAM与NAND合计可能出现约15万至20万片/月的供给缺口。美光科技在2026第三财季财报中表示，即使行业供应可能在2028年逐步改善，目前仍难以判断存储供给何时能够追上持续增长的需求。

此外，压力早已从数据中心蔓延至消费端。

Xbox首席执行官Asha Sharma公开表示，过去两年间内存成本上涨了约五倍，直接导致公司无法生产足够数量的游戏主机来满足市场需求。苹果也宣布相继对iPhone、Mac、iPad等产品进行涨价。

摩根士丹利分析师Shawn Kim团队更是直言，内存价格飙升与供应稀缺正演变为数字经济的全面风险，“从AI基础设施的瓶颈，蔓延至硬件利润率、设备可负担性、云成本、通胀乃至政策层面”。

在服务器物料清单中，DRAM的占比变化更能说明问题。2023年，DRAM约占服务器整机成本的50%；到2026年年中，这一比例已攀升至60%至90%，平均约75%。CPU的价格并没有下降，但在内存价格飞涨的映衬下，CPU的涨价幅度显得微不足道。

更讽刺的是，花了大价钱采购的内存，实际利用率并不高——Meta等超大规模厂商的实测数据显示，数据中心的内存普遍仅有约一半容量承载着活跃的“热数据”，大量冷数据长期占据着昂贵的DRAM资源。

面对DRAM的昂贵与稀缺，行业玩家开始另辟蹊径——不再单纯堆硬件，而是用技术手段减少对DRAM的依赖。

AMD：AI预测调度，让闪存“隐身”成内存

AMD选择了最轻量的软件切入路径。

2026年6月，AMD宣布收购内存优化厂商MEXT，其核心目标就是引入通过AI驱动的内存分层技术，将冷数据从高价DRAM下沉到低成本NAND闪存，实现有效内存容量的低成本扩张。

据悉，MEXT成立于2023年，创始团队大有来头——联合创始人兼CEO Gary Smerdon曾是Fusion-io的首席战略和产品官，将闪存存储大规模商业化的先行者，十多年前，苹果和Meta Platforms都是其主要客户。

MEXT针对内存效率瓶颈，推出了一项基于AI的分层内存(memory tiering)技术。这项技术能将低频率访问的数据，从昂贵的DRAM移转至每单位容量成本远低的NAND型闪存，且不影响应用程序运作。

MEXT的核心产品是预测内存引擎(Predictive Memory Engine)，一套完全基于软件的内存分层方案：它以内存页为粒度持续监测应用的访问模式，自动将低频访问的冷数据迁移到NAND闪存中——闪存每比特成本仅约为DRAM的1/55；同时通过AI模型学习工作负载的访问规律，预测即将被调用的数据页，在应用发起请求前就主动将其预取回到DRAM，让软件能够像直接访问主存储器般读取数据，进而确保效能不受影响。

图源：Nextplat

整套机制对操作系统和上层应用完全透明，无需修改任何业务代码，也不需要新增专用硬件，数分钟即可完成部署。

官方数据显示，该方案可将系统有效内存容量提升2至4倍，基础设施整体成本下降约50%。在Neo4j图数据库、EDA仿真、影视渲染等典型场景中，DRAM与闪存1:1配比的配置，可达到纯DRAM配置约95%的吞吐量，成本却大幅降低。

MEXT之前针对戴尔服务器以及AWS云实例进行了对比测试：

戴尔电脑/AWS配备和未配备MEXT扩展内存的对比图（图源：Nextplat）

已经在使用MEXT内存扩展时，内存和闪存比例为1:1和1:3时Neo4j图数据库的性能和性价比：

图源：Nextplat

MEXT的思路虽说不是革命性的——内存分层、把冷数据迁到更便宜的存储介质上，这些概念其实都已经存在了相当长的时间。但以往的技术没能在数据中心大规模落地，关键就在于预测算法的准确度不够。一旦预判失准，程序在需要数据时才从闪存搬回DRAM，延迟就会直接暴露，性能损失根本无法接受。

MEXT的突破在于用AI模型来干这件事。它的预测内存引擎持续分析内存访问模式，通过AI判断哪些数据页接下来最有可能被用到，然后在应用程序真正发起请求之前，就主动把数据从闪存迁回到DRAM。

对AMD而言，这笔收购补上了自身全栈能力的关键一块。在EPYC CPU、Instinct GPU与ROCm软件栈之外，MEXT带来的内存效率层，让AMD能够为客户提供从芯片到数据流调度的完整解决方案，既帮助客户降低总拥有成本、减少GPU“等数据”的闲置，也强化了自身在AI基础设施市场的竞争力。

收购消息公布当日，AMD股价盘中上涨近7%，市场用投票表达了对这一路径的认可。

当然也得说一句，MEXT的技术最终能在AMD的数据中心产品中落地到什么程度，还有待时间来检验。NAND闪存和DRAM在延迟上的物理差异是客观存在的，仅靠软件层面的AI预测能否真正弥合这道鸿沟，还需要看大规模部署后的实际表现。

Apple：端侧大模型，把模型“存进”闪存

当数据中心在为DRAM成本头疼，消费端也面临着同样的约束——手机等终端的DRAM容量极为有限，却要承载端侧大模型的推理需求。苹果给出的答案，是让大模型常驻闪存，按需加载到内存。

苹果最新的AFM 3 Core Advanced是一款200亿参数的端侧大模型，若按传统方式全部加载到DRAM，远超消费级设备的内存上限。苹果通过稀疏激活架构破解了这一难题：完整模型全部存放在NAND闪存中，推理时不加载全部权重，而是根据输入提示词一次性选定本次推理所需的专家模块，仅将10亿到40亿参数的工作集调入DRAM。

AFM 3 Core Advanced模型架构示意图

与传统MoE模型逐Token切换专家、导致频繁数据搬运不同，苹果采用按提示词粒度的路由机制，配合高比例常驻DRAM的共享专家，大幅减少了闪存与内存之间的交换次数，将加载延迟降到最低。再结合指令级剪枝（IFP）、Transformer层精简等优化，最终将200亿参数模型的DRAM峰值占用控制在2GB至8GB区间，进一步平衡了内存占用与计算效率，有效解决了MoE在端侧部署时DRAM占用过大的问题，使其能够在iPhone等终端设备上流畅运行，实现了“大模型小内存”的端侧推理。

这套架构并非临时攻关的产物。

实际上，早在2024年，苹果研究团队就发表了《LLM in a Flash》论文，系统验证了将大模型参数存放于闪存、按需调度的技术路径，在降低云端运算成本的同时，为端侧AI应用提供可行的内存架构支撑，可在CPU和GPU上分别实现比朴素加载快4至5倍和20至25倍的推理速度。

当DRAM涨价从产业端传导至消费电子，这套方案既支撑了端侧AI的体验，也降低了设备对大容量DRAM的依赖。

综合来看，AMD和Apple的两大路径分别针对数据中心与端侧同步演进，但共同指向同一结论：AI推理的内存层级正在重构，低频KV缓存、模型权重及端侧数据，将逐步从高价的HBM/DRAM下沉至NAND Flash/SSD层，形成多层次存储架构。

这一架构转变正沿产业链形成多层次的传导效应。据Citrini Research梳理，最直接的受益层是NAND原厂。

Marvell：硬件压缩+CXL，给物理内存扩容

如果说AMD和苹果走的是软件和架构优化的路线，Marvell则选择了硬件层面的突破，依托CXL高速互连协议，用硬件内联压缩技术直接提升物理DRAM的等效容量。

2026年6月，Marvell发布Structera系列CXL控制器——Structera X（内存扩展控制器）和Structera A（近内存加速器）。两款芯片都内置了自研的CDB（Compression-Decompression Block）硬件压缩模块。

据了解，数据写入DRAM时，CDB模块会通过定制化LZ4无损算法实时压缩；读取时则同步完成解压。整个过程在内存链路中独立完成，不占用主机CPU算力，也对上层应用完全透明。根据数据类型不同，1GB物理DRAM可发挥2至3.64倍的等效逻辑容量——在混合数据库业务场景下，平均压缩比可达3.64:1，相当于用不到三分之一的物理内存满足同等业务需求。

除此之外，这套方案还有两重降本价值：一是旧内存复用，Structera X控制器支持DDR4内存接入，可将退役的DDR4内存纳入CXL内存池，减少对昂贵DDR5的新增采购；二是内存池化，通过CXL协议打破单CPU对内存的独占限制，让多台服务器共享内存资源，消化系统中的闲置容量。

按当前DDR5每GB 27至37美元的现货价计算，一个12TB的内存池仅DRAM硬件成本就接近50万美元；若按3倍压缩比估算，物理DRAM采购量可缩减三分之二，单池就能节省三十余万美元。

对动辄数万节点的云厂商而言，这意味着巨额的资本开支优化。目前Structera已是业内首款量产的搭载硬件内联压缩的CXL控制器，相关技术方案已提交OCP开放计算项目标准化，未来适配范围将进一步扩大。

闪迪：把NAND塞到GPU下面

Sandisk（闪迪）的解法更加激进——从封装层面重构AI芯片的内存架构。

Sandisk正联合SK海力士推动高带宽闪存（HBF）标准化，试图让NAND闪存进一步靠近计算核心，打造HBM与SSD之间的全新存储层级。

Sandisk的专利方案提出了“GPU下的NAND”架构：将高容量NAND闪存堆叠在GPU或AI加速器的正下方，周围环绕HBM堆叠，通过大幅缩短数据传输距离，提升闪存的访问带宽。按照规划，HBF将与HBM4物理兼容，容量可达同体积HBM的8至16倍，成本则具备显著优势，主打长上下文推理、KV缓存、模型权重流式加载等读取密集型场景。

这种被称作HBF（High Bandwidth Flash，高带宽闪存）的技术，定位在HBM和SSD之间。如果把HBM比作摊在桌面上的“参考书”，那基于NAND的HBF就是放在GPU旁边的“书柜”。HBM处理必须立即响应的数据，而GPU下方的NAND存储更大的数据并进行反复读写。

闪迪的目标是开发带宽接近HBM的HBF，以类似成本提供8到16倍HBM的容量。2026年2月，闪迪与SK海力士正式启动了HBF规范标准化联盟。SK海力士贡献其在HBM中积累的堆叠、封装与中介层技术，闪迪则带来NAND和闪存设计的能力。双方计划在2026年下半年推出首批HBF样品，2027年初应用于AI推理设备。目标是构建三级内存架构：HBM负责超低延迟的即时计算，HBF承接大容量、高吞吐的反复读取数据，SSD则承载冷存储，各层级各司其职。

当然，HBF走向大规模商业化仍需跨越多重关卡。计算芯片与NAND堆叠带来的高热密度、混合键合与复杂布线的良率挑战、以及冷热数据分层调度的软件生态，都需要时间逐步打磨。

据韩国新荣证券预计，HBF市场有望在2027年形成，到2030年增长至120亿美元的规模。

前车之鉴：3D XPoint的未竟之路

说起来，用闪存来扩展主内存并非新鲜事。

早在2015年，英特尔与美光就联合推出了3D XPoint存储技术，其愿景恰好命中了今天的行业痛点——打造一种性能介于DRAM和NAND闪存之间、支持字节寻址、成本接近闪存的新型存储介质，在内存与传统存储之间构建一个新的层级。

遗憾的是，3D XPoint最终没能兑现最初的承诺。

制程研发的滞后让它的成本一路追平DRAM，性能却仅比普通闪存快数倍；加之英特尔将其绑定自家Xeon处理器的封闭策略，使其始终无法进入主流市场。最终项目终止，英特尔的闪存业务也被出售给SK海力士，这项曾被寄予厚望的技术，成了存储行业一段令人唏嘘的注脚。

如果英特尔当初没有放弃3D XPoint，如今的利润该有多丰厚？可惜历史没有如果。

此外，国内一些做存算一体、内存池化解决方案的初创公司，接下来估计也会受到更多关注。毕竟在DRAM价格高企、供给侧又被挤占的大背景下，谁能拿出一套真正靠谱的内存优化方案，谁就可能在资本市场上拿到下一轮入场券。

写在最后

从3D XPoint的折戟到今天多种路径并行，存储行业对内存效率的探索从未止步。

AMD用AI预测来调度冷热数据、Apple用稀疏激活和闪存存储来压缩端侧内存占用、Marvell用硬件压缩让物理内存发挥更大效用、闪迪用3D堆叠把NAND搬到GPU脚下——四家公司的技术路径各不相同，但指向同一个方向：AI推理的内存层级正在重构——热数据留在DRAM与HBM中保障性能，温冷数据逐步下沉到闪存层承接容量，多层介质协同平衡性能与成本。

DRAM的昂贵，正在把整个行业“逼上了梁山”。但正是这种压力，催生出了一系列令人眼前一亮的技术创新。

不可否认，闪存与DRAM在延迟上的物理鸿沟始终存在，各类方案的实际表现仍需大规模部署的验证。但可以确定的是，单纯堆砌DRAM来解决问题的时代正在过去，更高效、更分层的内存体系，已是行业前行的新方向。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

上一篇：数据外包变泄密通道？国安部敲响警钟

下一篇：ABB举办能源发展与产业生态峰会，以AI+电力创新共探新型能源体系建设路径

返回列表

热文阅读

2 天前

突发，阿里AI产线大整合，92年陈宇森统管三大Agent

2 天前

绝了，Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

2 天前