DeepSeek与北京大学、清华大学合作,在ArXiv平台发表论文,提出面向智能体系统的全新大模型推理框架DualPath。该框架旨在解决长上下文场景下KV-Cache加载引发的I/O瓶颈问题,通过引入“存储→解码引擎→预填充”的第二路径,利用解码引擎闲置的存储网络带宽和RDMA高速网络,实现集群存储带宽的全局池化与负载均衡。在660B参数规模的生产级模型测试中,DualPath使离线推理吞吐提升1.87倍,线上服务吞吐平均提升1.96倍,显著优化首Token延迟,且不影响逐Token生成速度。
