DeepSeek 与北大联合开源 DSpark:高并发推理速度提升 60% 至 85%
10 小时前

DeepSeek与北京大学携手推出DSpark推理加速框架,专为解决大语言模型在高并发生产环境中的推理效率难题而设计,现已成功应用于DeepSeek-V4-Flash与DeepSeek-V4-Pro预览版服务引擎。相较于单token推测解码基线MTP-1,DSpark在保持同等吞吐量的同时,单用户生成速度提升了60%至85%。该框架的论文及训练代码已在GitHub上公开。DSpark针对推测解码中的两大瓶颈——候选生成质量与验证阶段计算资源占用,创新性地提出了半自回归架构与置信度调度验证机制。半自回归架构通过并行主干网络一次性生成候选位置隐藏状态和基础logits,再结合轻量级顺序模块注入前缀依赖信息,有效提升了参数效率。置信度调度验证机制则根据候选位置的置信度分数,通过硬件感知前缀调度器动态调整验证长度,从而优化计算资源分配。离线基准测试表明,在数学推理、代码生成和日常对话任务中,DSpark的平均每轮接受长度均优于自回归草稿模型Eagle3与并行草稿模型DFlash。在生产部署方面,DSpark草稿模型采用特定架构,通过系统优化降低通信复杂度和计算内存开销,并通过异步调度和物理执行与逻辑序列跟踪解耦来应对工程约束。在线实测结果显示,DSpark在不同引擎及SLA下均显著提升了吞吐量,且调度器具备负载自适应的验证预算分配能力。不过,该框架在处理复杂查询时,完整初始候选块的草稿计算开销无法回收,这是其目前存在的局限。