12日晚,DeepSeek携手北京大学发布新论文《基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度》,合著作者包括梁文锋。论文提出条件记忆概念,通过引入可扩展的查找记忆结构,在保持参数和算力不变的情况下,显著提升模型在知识调用、推理、代码及数学任务上的性能。此外,DeepSeek还开源了相关记忆模块Engram。