DeepSeek推出了NSA,这是一种与硬件一致的稀疏注意力机制,支持本机训练,旨在加速长上下文的训练和推理。NSA通过针对现代硬件的优化设计,提升了推理速度,降低了预训练成本,同时保持了性能不变。在基准测试、长上下文任务和指令推理方面,NSA的表现与完全注意力模型相当或更优。