DeepSeek 联合创始人梁文锋领导的研究团队发布新论文,提出名为 NSA 的新型注意力机制。该机制专为超快长上下文训练和推断设计,具备硬件对齐特性。NSA 通过分层 token 建模降低计算量,并结合硬件对齐的系统和训练感知设计,实现高效部署及端到端训练。实验结果显示,NSA 在多个评估中表现突出,与 Full Attention 相比,在解码、前向和后向阶段均提供显著加速,且序列长度越长,加速比越高。此研究证实了分层稀疏注意力设计在平衡模型能力和计算效率方面的有效性。