英伟达适配DeepSeek-V4 AI模型,开箱性能超150 tokens/sec/user
4 小时前

4月25日,英伟达发布博文称,NVIDIA Blackwell平台现已支持DeepSeek-V4-Pro与DeepSeek-V4-Flash两款模型。其中,DeepSeek-V4-Pro总参数量达1.6T,激活参数为49B,专为高级推理任务设计;DeepSeek-V4-Flash总参数量为284B,激活参数13B,主打高速高效应用场景。两款模型均支持100万Token上下文窗口及最高38.4万Token输出长度,并采用MIT开源协议。性能方面,DeepSeek-V4-Pro在NVIDIA GB200 NVL72上开箱即用性能超过150 tokens/sec/user,若通过vLLM在Blackwell B300上部署,性能有望进一步提升。开发者可通过NVIDIA NIM微服务下载部署,或利用SGLang与vLLM框架进行定制化推理。