IT之家 4 月 24 日消息,备受关注的 DeepSeek-V4 预览版今日正式上线并同步开源。
随后,华为云官方宣布为 DeepSeek-V4 提供首发适配,华为云 MaaS 模型即服务平台已为开发者提供免部署、一键调用 DeepSeek-V4-Flash API 的 Tokens 服务。
在适配过程中,华为云针对 V4 模型的特性,首发适配了模型分层注意力压缩机制,实现了 V4 注意力机制下 KVCache 的高效分配管理,提供了 TopK、SWA、CFA 等 10 余种昇腾高性能融合算子,搭配框架异步调度、MTP 多步投机等框架优化,支持原生 100 万 Token 长上下文的高性能推理。

DeepSeek 方面已经确认,受限于高端算力,目前 Pro 版本的服务吞吐较为有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格还将大幅下调。IT之家此前报道,昇腾超节点全系列产品也已全面支持 DeepSeek-V4 系列模型。
本次发布的 V4 系列包含两个 MoE 架构版本:旗舰版 DeepSeek-V4-Pro 总参数 1.6 万亿、激活参数 490 亿,经济型 DeepSeek-V4-Flash 总参数 2840 亿、激活参数 130 亿,两者均原生支持 100 万 Token 的超长上下文。
在技术架构层面,DeepSeek-V4 并未单纯依靠增加硬件投入,而是设计了全新的混合注意力机制,包含压缩稀疏注意力(CSA)与重压缩注意力(HCA)两大组件,在 Token 维度对 KV 缓存进行压缩并结合 DSA 稀疏注意力技术,大幅降低了长上下文场景下的计算和显存需求。
据官方技术报告,在 100 万 Token 上下文设置下,V4-Pro 的单 Token 推理 FLOPs 仅为前代 V3.2 的 27%,KV 缓存占用降至 10%;V4-Flash 更为极致,两项指标分别压低至 10% 和 7%。此外,V4 还引入了流形约束超连接(mHC)替代传统残差连接,使用 Muon 优化器提升训练收敛速度,整个模型在超过 32 万亿 Token 上完成了预训练。
性能方面,DeepSeek 官方表示 V4-Pro 在 Agent 能力、世界知识和推理性能上均实现了国内与开源领域的领先。在知识与推理类基准测试中,V4-Pro-Max 模式(最大推理强度模式)在 Apex Shortlist(90.2%)和 Codeforces(Rating 3206)两项硬核推理与编程任务中拔得头筹。
智能体能力方面,DeepSeek 在 Terminal Bench 2.0(67.9%)和 Toolathlon(51.8%)两项工具调用与复杂指令执行测试中表现突出。官方给出的定位是:V4-Pro 的使用体验优于 Anthropic Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但与 Opus 4.6 思考模式仍存在一定差距。
同时官方明确表示,V4 的能力水平仍落后 GPT-5.4 和 Gemini-3.1-Pro,发展轨迹大约滞后前沿闭源模型 3 至 6 个月。V4-Flash 则定位为经济型模型,推理能力接近 Pro 版,世界知识储备稍逊一筹,在简单 Agent 任务上与 Pro 版旗鼓相当,但在高难度任务上仍有差距。
相关阅读:
《华为:昇腾超节点系列产品全面支持 DeepSeek V4》
《寒武纪 Day 0 适配 DeepSeek-V4,发布当日即稳定运行》
《迈入百万上下文普惠时代:DeepSeek-V4 模型预览版正式上线并同步开源》
