谷歌推出压缩算法TurboQuant,宣称实现约6倍内存节省
3 小时前

谷歌推出了一款名为TurboQuant的压缩算法,该算法有望降低人工智能系统的内存需求。TurboQuant主要针对大语言模型和向量搜索引擎中的键值缓存瓶颈问题,这些缓存随着上下文窗口的扩大,正成为主要的内存瓶颈。TurboQuant能够在不重新训练或微调模型的前提下,将键值缓存压缩至3bit精度,同时几乎不影响模型的准确率。对Gemma等开源模型的测试结果表明,该技术可实现键值缓存内存约6倍的压缩效果。