DeepSeek 团队发布注意力新机制新论文，梁文锋是共创之一 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

DeepSeek 团队发布注意力新机制新论文，梁文锋是共创之一

2025-02-19

DeepSeek 联合创始人梁文锋领导的研究团队发布新论文，提出名为 NSA 的新型注意力机制。该机制专为超快长上下文训练和推断设计，具备硬件对齐特性。NSA 通过分层 token 建模降低计算量，并结合硬件对齐的系统和训练感知设计，实现高效部署及端到端训练。实验结果显示，NSA 在多个评估中表现突出，与 Full Attention 相比，在解码、前向和后向阶段均提供显著加速，且序列长度越长，加速比越高。此研究证实了分层稀疏注意力设计在平衡模型能力和计算效率方面的有效性。

上一篇：被质疑 AI 合成画面，宇树科技官方发布人形机器人干扰环境跳舞实拍视频

下一篇：马斯克用20万张卡练出的Grok 3能超越DeepSeek吗？

返回列表

热文阅读

2 天前

人形机器人迈入大规模商用阶段？英伟达重磅消息：机器人新大脑来了！

2 天前

中兴通讯智算超节点斩获2025中国算力大会“年度重大突破成果奖”

2 天前

加速迈向智能世界｜华为亮相2025中国算力大会

2 天前

《2025综合算力指数》报告：河北、江苏、广东综合算力指数位居全国前列