DeepSeek 新论文或「泄密」V4 杀手锏：一招突破瓶颈，居然把 CPU 当 GPU 用？ - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

DeepSeek 新论文或「泄密」V4 杀手锏：一招突破瓶颈，居然把 CPU 当 GPU 用？

2026-01-13 / 阅读约9分钟

来源：36kr

DeepSeek被曝春节前后发布新一代模型V4，其代码能力或超越Claude和GPT系列。论文揭示V4或采用Engram技术，通过存储固定知识提升推理能力，且用CPU内存替代GPU显存，降低成本。

前几天，DeepSeek 被曝出在春节前后发布新一代旗舰模型 DeepSeek-V4。

据称 V4 在代码任务上的表现已超越 Anthropic 的 Claude 系列以及 OpenAI 的 GPT 系列。

虽然官方仍保持神秘，但 DeepSeek 近期密集发布的论文或许已经初现端倪。

就在昨晚，DeepSeek 联合北京大学发布了一篇名为《Conditional Memory via Scalable Lookup》的新论文， 梁文锋也再次署名。

Engram 或许是 V4 强大能力的「技术底牌」之一。

那它能否验证传闻：V4 在处理超长代码项目和复杂逻辑推理上取得了重大突破，且解决了模型越练越「糊涂」的性能衰退难题？

论文传送门：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

你的大模型，其实一直在「笨拙」地计算

当你问 ChatGPT「莎士比亚的全名是什么」时，它并不是从某个知识库里直接调取答案。相反，它需要动用多层神经网络，通过复杂的矩阵运算，逐层「拼凑」出这个答案。

论文用了一个更具体的例子：当模型遇到「Diana, Princess of Wales」时，需要消耗前 6 层网络才能完成识别。第 1 到 2 层只能理解这是「Wales」，第 3 层才意识到这是「Princess of Wales」，直到第 6 层才最终确认这是「戴安娜王妃」。

DeepSeek 的研究员在 Engram 论文中指出：这种靠「深度计算」来模拟「记忆检索」的过程，极大地浪费了模型宝贵的脑力（推理能力）。

如果 V4 真如爆料所说「代码能力吊打全场」，那么它一定解决了这个问题——因为代码中包含大量固定的语法和套路，没必要每次都去「推理」一遍。

给 AI 挂上「超级字典」

为了解决这个问题，DeepSeek 在论文中进行了一波「技术复古」。

既然有些知识是固定不变的，为什么不直接把它们存储起来，需要时直接查询，而不是每次都重新计算？

他们把 NLP 领域最古老的 N-gram（N元语法） 请了回来，并改造成了现代化的 Engram 模块 。

它通过哈希函数将局部上下文映射到一个巨大的嵌入表中。当模型遇到「Alexander the Great」这样的固定短语时，不再需要多层网络逐步理解，而是直接从记忆库中提取对应的语义向量。

为了处理「不同词汇映射到同一位置」和「同一词汇在不同语境下意义不同」带来的干扰，团队引入了上下文感知的门控机制（Context-aware Gating）。用当前的隐藏状态作为查询向量，对检索结果进行动态调制。如果检索到的内容与当前上下文不匹配，门控值会接近零，有效抑制噪声。

在处理「Only Alexander the Great could tame the horse Bucephalus」这句话时，Engram 的门控激活热力图显示，模型在遇到「the Great」和「Bucephalus」时出现明显的激活峰值,说明它成功识别并检索了这些固定实体的语义表示。

这或许解释了为什么 V4 的代码能力会大幅提升： Engram 就像是给程序员配了一个超级 IDE，自动补全了所有的固定语法，让模型的大脑只需要专注于「如何解题」，而不是「怎么写分号」。

把 CPU 内存条变成「显存」

除了让模型变聪明，Engram 这篇论文里最让开发者和中小企业兴奋的是：GPU显存不再是模型规模瓶颈。DeepSeek 正在尝试 用便宜量大的 CPU 内存（DRAM），去替代昂贵稀缺的 GPU 显存（HBM）。

传统的 MoE 模型是动态路由的，模型必须算完这一层，算出结果数值，才能决定下一层该去哪个专家那里计算。这叫「走一步看一步」，数据根本来不及提前准备。

而 Engram 的检索逻辑则完全由输入 token 序列决定。一旦看到输入文本，就能立即计算出需要访问哪些嵌入向量，无需等待中间层的计算结果。

这种「计算与传输重叠（Overlap）」的技术，完美掩盖了 CPU 内存读取慢的缺陷。

实验证明了这一策略的可行性。他们构建了一个 1000亿参数（100B）的巨型 Engram 词表，并且把这部分参数完全扔到了 CPU 内存里（注意，一点都不占用宝贵的显存）。

在实际推理测试中，相比于纯 GPU 运行，整体吞吐量的损耗竟然小于 3%，这在工业部署中几乎可以忽略不计。

以前你想跑千亿参数模型，可能需要几张 A100 (80G)。现在，你可能只需要一张消费级显卡负责计算，再插上几根便宜的 64GB 内存条负责存知识，就能跑起来。

这下不用担心英伟达、AMD 在 2026 年上调 GPU 价格了。

还想让模型学会最新的法律条文或医疗数据？不需要重新训练庞大的神经网络，只需要在 CPU 内存里「外挂」一个新的 Engram 表。对于垂直行业应用，这意味着维护成本的指数级下降。

因为语言符合二八定律，常用的词很少，未来的 DeepSeek 模型可能会这样运行：热知识放在 GPU 显存光速响应，温知识放在 CPU 内存毫秒级预取，冷知识甚至可以放在固态硬盘里。这意味着，原本只能存几百亿参数的硬件，理论上可以外挂几万亿参数的超大知识库，而且成本极低。

过去我们认为模型规模受限于 GPU 集群的显存总量，Engram 证明了只要设计得当，廉价的主机内存也能成为模型容量的有效载体。这为未来的超大规模模型部署打开了新的可能性。

实验数据验证 V4 传闻

回到 V4 的爆料，The Information 提到新模型在「长代码处理」和「逻辑条理性」有质的飞跃。有趣的是，Engram 论文里的实验数据印证了这个说法。

在知识密集型任务上，Engram-27B 相比 MoE-27B 在 MMLU 上提升 3.4 分，CMMLU 提升 4.0 分。这符合预期，毕竟 Engram 本就是为知识检索设计的。

但真正出人意料的是推理能力的飞跃。在 BigBench Hard 上提升了 5.0 分，ARC-Challenge 提升 3.7 分，DROP 提升 3.3 分。代码和数学领域同样显著，HumanEval 提升 3.0 分，MATH 提升 2.4 分，GSM8K 提升 2.2 分。

长文本能力的提升同样惊人。在 32k 上下文窗口的 RULER 基准测试中，Engram-27B 在多查询 Needle-in-a-Haystack 任务上的准确率从 84.2% 跃升至 97.0%，变量追踪任务从 77.0% 提升到 89.0%。这是因为通过查询处理局部依赖，注意力机制被解放出来专注于全局上下文建模。

通过对模型内部的「CT 扫描」，研究人员发现：因为 Engram 在浅层就搞定了死记硬背的工作， 模型原本被占用的深层网络被「解放」了 。这就像把背书的时间省下来，全拿去刷奥数题，智商能不涨吗？这与爆料中提到的「V4 回答更有条理、推理更强」不谋而合。

DeepSeek 的野心不止于「大」

从 R1 的 86 页技术报告，到 mHC 架构，再到今天的 Engram 记忆模块，DeepSeek 的节奏明显加快。

如果说 OpenAI 在探索 Scale Law（规模定律）的极限，那么 DeepSeek 似乎正在疯狂挖掘 Architecture Efficiency（架构效率） 的金矿。他们希望用更巧妙的结构让模型「吃得少、干得多」。

春节 将至，DeepSeek V4 是否会带着这些「硬核技术」再次血洗榜单？

让我们拭目以待。至少从这篇论文来看，他们的「军火库」里，确实还有不少好东西。

上一篇：马来西亚对X采取法律行动：Grok生成不雅图像未保护用户安全

下一篇：IBM宣布与全英草地网球俱乐部续签长期合作协议，继续担任温布尔登官方人工智能、云计算和数字化转型合作...

返回列表

你的大模型，其实一直在「笨拙」地计算

给 AI 挂上「超级字典」

把 CPU 内存条变成「显存」

实验数据验证 V4 传闻

DeepSeek 的野心不止于「大」

相关新闻