DeepSeek联合清北发布论文:发力智能体底层基建,突破Agent推理I/O瓶颈
3 小时前

DeepSeek联合北京大学、清华大学在ArXiv发布论文,提出智能体推理新框架DualPath。该框架旨在解决Agent长文本推理的I/O瓶颈问题,通过引入“存储至解码”路径,改变传统单路径加载模式,实现集群存储带宽的全局池化与动态负载均衡。在660B规模模型的实测中,DualPath使离线推理吞吐量提升1.87倍,在线服务吞吐量平均提升1.96倍,同时优化了首字延迟且不影响Token生成速度。DualPath构建了双路径模型,由推理引擎、流量管理器和中央调度器组成,并提供了以计算网卡为中心的流量管理和自适应请求调度器两套优化方案。实验结果表明,DualPath能有效突破大模型推理的I/O限制,提升智能体LLM推理系统的效率。论文第一作者为北京大学博士生吴永彤,专注于系统软件与大模型基础设施研究。