把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍
2024-12-28

来自卡内基梅隆大学(CMU)、华盛顿大学和Meta AI的研究人员提出了名为MagicPIG的技术,该技术结合了CPU和GPU的优势,利用局部敏感哈希(LSH)采样技术,有效缓解了模型KV缓存压力,并克服了GPU内存容量限制的问题。与仅使用GPU的注意力机制相比,MagicPIG在各种情况下解码吞吐量提高了1.76至4.99倍,同时在检索和推理任务中实现了更高的下游准确率,表现优于Quest等现有技术。该研究的两大主要贡献是:一是相比其他稀疏注意力机制,MagicPIG在性能上有所提升;二是通过结合CPU和GPU,优化了资源利用。