Google突破性算法震惊硅谷 华尔街激辩:内存需求要降温了?
6 小时前

美东时间周二,谷歌发布超高效AI内存压缩算法TurboQuant,可在不损失准确性的前提下,将大型语言模型运行时的缓存内存占用至少减少6倍、性能提升8倍,让人工智能在占用更少内存空间的同时记住更多信息。该算法通过PolarQuant和QJL两个关键步骤实现高质量压缩和误差消除,无需重新训练或微调模型。谷歌在开源模型上的测试显示,TurboQuant可实现约6倍的键值缓存内存压缩效果,并在H100 GPU加速器上实现最高8倍的性能提升。谷歌计划在下个月的ICLR 2026会议上展示其研究成果。