DeepSeek再放大招,推理速度狂飙85% 怎么做到的?
5 小时前

6月27日,DeepSeek团队联合北京大学发布技术报告,公开了DSpark框架及DeepSpec全栈代码库。此次更新在原有DeepSeek-V4-Pro和DeepSeek-V4-Flash模型基础上,新增了服务端推测解码模块DSpark,重点优化工程落地效率。DSpark通过半自回归生成架构,结合并行主干网络与轻量级串行模块,解决了并行草稿模型在长序列生成中接受率衰减的问题;同时引入置信度调度验证机制,根据硬件状态和并发压力动态调整验证长度,实现算力高效分配。该框架已部署于DeepSeek-V4线上服务系统,在同等系统吞吐规模下,V4-Flash单用户生成速度提升60%-85%,V4-Pro提升57%-78%,且输出质量无损。配套开源的DeepSpec代码库提供数据准备、模型训练和评估全流程工具,支持MIT许可协议,内置DSpark、DFlash和Eagle3三种草稿模型算法,兼容Qwen3、Gemma等主流基座模型。此次开源降低了大模型私有化部署和线上服务的落地门槛,加速了智能体、工业代码、金融舆情等场景的规模化落地。