DeepSeek V4完整技术规格偷跑：1.6万亿参数、1M上下文 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

DeepSeek V4完整技术规格偷跑：1.6万亿参数、1M上下文

3 小时前 / 阅读约3分钟

来源：凤凰网

普林斯顿博士生Yifan Zhang公开DeepSeek V4完整技术规格，包括1.6万亿参数完整版和2850亿参数V4 Lite版，采用DSA2注意力机制和MoE混合专家技术，后端训练及优化涉及新技术，但真实性待确认。

快科技4月23日消息，距离月底只剩下一周时间了，各家大模型最近都有新品或者升级发布，就是DeepSeek V4等得让人心急。

DeepSeek V4最让人期待的还是它这次会用什么新技术让国产AI大模型站上世界之巅，就算不是最强的，至少也要能达到跟闭源顶级AI掰手腕的水平。

普林斯顿大学的博士生Yifan Zhang今天在X上公开了DeepSeek V4的完整技术规格，V4这次有两个版本大家都知道了，一个完整版，参数量高达1.6万亿，还有个V4 Lite，参数量2850亿，这些都很符合之前的传闻。

注意力机制上，DeepSeek V4采用了DSA2，融合了之前的DeepSeek V3/R1中的DSA机制，以及今年初DeepSeek论文中提出的NSA两种稀疏注意力机制。

MoE混合专家技术采用了融合方案，Mega内核，每层384个专家，每次激活6个专家。

残差连接则是之前论文中提出的Hyper-Connections，前不见的DeepGemm更新中也有提到。

后端训练及优化也涉及了非常多的新技术，优化器是Muon，RL强化学习使用的是GRPO及KL散度修正，最终将预训练的32K上下文扩展到了1M上下文。

此外，DeepSeek之前的更新中暗示会支持视觉，意味着是多模态的，但这里称它依然是纯文本大模型，有点意外。

总的来说，他这份爆料内容不少，但是真实性不好说，因为他也不是DeepSeek公司的研发人员，介绍的这些技术看起来也像是网上的资料综合起来的，很多细节在网上已经有过爆料或者官方资料露出了蛛丝马迹，就是不能完全确认而已。

DeepSeek R1发布至今已经过去15个月了，距离DeepSeek V3.2最终版也过去5个月了，这段时间各家大模型公司至少更新了一代大版本+两三个小版本迭代升级，DeepSeek V4面临的压力可不小，越是发布晚就越面临这个问题。

现在只能希望下周真的可以看到DeepSeek V4完整版及Lite版上线。

上一篇：燧原 L600 Day-0 适配腾讯混元 Hy3 preview

下一篇：OpenAI发布工作流Agent，GPTs进入倒计时

返回列表

热文阅读

2 天前

机器人从算力竞争升级到散热大战，手机厂商已发起降维打击？

2 天前

中兴通讯携手中力股份联合发布Co-Claw AMR，构建工业物流数智新生态

1 天前

OpenAI 最前沿的 AI 智能体编程模型 GPT-5.5 偷跑

1 天前

OpenAI 发布 ChatGPT Images 2.0 生图工具：支持联网搜索、单次生成 8 张连贯图像

2 天前

OpenAI Codex 推出 Chronicle 功能：通过录制屏幕构建上下文记忆库

1 天前

消息称 OpenAI 拟 15 亿美元投资一合资企业，发力企业级 AI 市场

1 天前

特斯拉车机语音大模型服务在我国上海市完成备案

2 天前

阿里申请“千问小酒窝”商标覆盖AI、机器人等领域

2 天前

Cognizant推出Cognizant Skillspring™，加速AI人才培养：全新人才转型平台，助力企业快速提升员工AI就绪能力

2 天前

张颂文谈AI能否取代演员：AI很完美但人因为有缺陷才更真实

上一篇：燧原 L600 Day-0 适配腾讯混元 Hy3 preview

下一篇：OpenAI发布工作流Agent，GPTs进入倒计时

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们