今日凌晨,DeepSeek开源全新架构模块「Engram」,并发布技术论文,署名作者包括梁文锋。Engram引入了可扩展的查找式记忆结构,为大模型提供了新的稀疏性维度。当前主流大模型在处理“查表式”记忆和复杂推理计算任务时,存在结构性低效问题。Engram基于现代化哈希N-Gram嵌入,实现了O(1)查找式记忆,检索成本稳定,并能提供“条件记忆”,通常被置于模型早期层,承担“模式重建”职责。在27B参数规模的实验中,等参数、等算力条件下,模型在多任务上性能显著提升。相关讨论认为,Engram减少了模型早期层对静态模式的重建需求。部分开发者指出,该架构使大规模静态记忆不再受GPU存储限制,且推理开销较低。多位观察者推测,Engram可能成为DeepSeek下一代模型「V4」的核心技术基础。
