NVIDIA发明新技术KVTC 内存使用量缩减20倍 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

NVIDIA发明新技术KVTC 内存使用量缩减20倍

8 小时前

2026年3月22日，NVIDIA研究人员发布KVTC（KV快取转换编码）技术，该技术通过压缩大型语言模型（LLM）的KV缓存（即模型处理对话时记录的Key和Value信息），将内存用量最高缩减20倍，且无需修改模型代码。KV缓存作为AI模型的“短期记忆”，在长对话场景中会膨胀至数GB，占用GPU内存并拖慢运行效率。NVIDIA资深工程师Adrian Lancucki指出，现有模型推理瓶颈常在于GPU内存不足，而非算力。KVTC借鉴JPEG压缩思路，通过主成分分析、自适应量化、熵编码三步实现高效压缩，同时保留关键信息并支持分块解压，确保模型实时响应。测试显示，在15亿至700亿参数的模型（如Llama 3系列、R1-Qwen 2.5）上，KVTC压缩20倍后准确率损失不足1%，而传统方法压缩5倍即出现明显下降。在H100 GPU处理8000个Token时，使用KVTC后首次回应时间从3秒缩短至380毫秒，提速8倍。该技术适用于编程助手、迭代推理等长对话场景，NVIDIA计划将其整合至Dynamo框架，兼容vLLM等开源引擎。业内认为，随着对话长度增加，KVTC或成为AI落地的标准化压缩工具，降低企业硬件成本。

上一篇：微信推出官方龙虾插件ClawBot

下一篇：Cursor套壳、黄仁勋坐上宾 DeepSeek的光环现在都是Kimi的了

返回列表

热文阅读

3 天前

所有人都在等待微信AI的王炸

2 天前

刚刚，OpenAI买下Python最强基建，准备垄断开发者「生产资料」

1 天前

为什么大厂必须抢郭达雅？

2 天前

被龙虾盖过风头的ChatBot，是真的安静下来了吗？