DeepSeek推出NSA，用于超快速的长上下文训练和推理 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

DeepSeek推出NSA，用于超快速的长上下文训练和推理

2025-02-18

DeepSeek推出了NSA，这是一种与硬件一致的稀疏注意力机制，支持本机训练，旨在加速长上下文的训练和推理。NSA通过针对现代硬件的优化设计，提升了推理速度，降低了预训练成本，同时保持了性能不变。在基准测试、长上下文任务和指令推理方面，NSA的表现与完全注意力模型相当或更优。

上一篇：福昕软件：公司国内版PDF编辑器产品已完成DeepSeek模型的适配接入

下一篇：大砍投放预算，DeepSeek冲击之下月之暗面Kimi暂缓“烧钱”

返回列表

热文阅读

2 天前

又一颗芯片，被英伟达打败

1 天前

GPT-5 为什么没有带来更多惊喜？

2 天前

陈立武站在断层间

1 天前

GPT-5问题太多，奥特曼带团回应一切，图表弄错是因「太累了」

2 天前

目前为止最好的AI？德银一文揭示GPT-5六大看点

2 天前

OpenAI被曝向千名员工“撒钱”留人

2 天前

ChatGPT-4o重新上线

2 天前

OpenAI重启GPT-4o服务，Plus和Team用户可使用

3 天前

华人成GPT-5带队人，毕业两年就成千万富翁

1 天前

OpenAI完胜Grok，AI国际象棋锦标赛背后的科技战争

上一篇：福昕软件：公司国内版PDF编辑器产品已完成DeepSeek模型的适配接入

下一篇：大砍投放预算，DeepSeek冲击之下月之暗面Kimi暂缓“烧钱”

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们