大语言模型(LLM)的推理性能瓶颈正被新技术突破。Moonshot AI与清华大学研究团队联合提出了“预填充即服务(PrfaaS)”新型架构。该架构将预填充与解码任务精准分离,实现跨地域高效协同。它将高计算密集的预填充任务卸载至专门的高计算集群,生成的KVCache远程传输至本地解码集群,并引入双时间尺度调度机制,确保传输高效。实测显示,该架构使服务吞吐量提升了54%,降低了响应延迟,实现了资源利用率的最大化。此次合作提供了新的工程思路,为跨地域算力网络的构建奠定了基础,“预填充即服务”模式或将成为大模型迈向工业化应用的重要分水岭。
