NVIDIA发明新技术KVTC 内存使用量缩减20倍
8 小时前

2026年3月22日,NVIDIA研究人员发布KVTC(KV快取转换编码)技术,该技术通过压缩大型语言模型(LLM)的KV缓存(即模型处理对话时记录的Key和Value信息),将内存用量最高缩减20倍,且无需修改模型代码。KV缓存作为AI模型的“短期记忆”,在长对话场景中会膨胀至数GB,占用GPU内存并拖慢运行效率。NVIDIA资深工程师Adrian Lancucki指出,现有模型推理瓶颈常在于GPU内存不足,而非算力。KVTC借鉴JPEG压缩思路,通过主成分分析、自适应量化、熵编码三步实现高效压缩,同时保留关键信息并支持分块解压,确保模型实时响应。测试显示,在15亿至700亿参数的模型(如Llama 3系列、R1-Qwen 2.5)上,KVTC压缩20倍后准确率损失不足1%,而传统方法压缩5倍即出现明显下降。在H100 GPU处理8000个Token时,使用KVTC后首次回应时间从3秒缩短至380毫秒,提速8倍。该技术适用于编程助手、迭代推理等长对话场景,NVIDIA计划将其整合至Dynamo框架,兼容vLLM等开源引擎。业内认为,随着对话长度增加,KVTC或成为AI落地的标准化压缩工具,降低企业硬件成本。