DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

10 小时前

2026年4月30日，DeepSeek在GitHub发布多模态技术报告《Thinking with Visual Primitives（以视觉原语思考）》，阐释了其灰度上线的DeepSeek识图模式背后的技术细节。该模型基于DeepSeek V4-Flash（284B总参数、推理时激活13B的MoE架构）构建，提出了一种全新的多模态推理范式，将纯粹的语言推理链条升级为“语言逻辑+空间坐标”交织的双轨思维。模型在推理时，会像人一样直接输出具体的框或点，在图中精准“指”出思考对象，并持续引用这些视觉锚点进行下一步判断，极大提升了视觉推理的准确性。该模型通过视觉压缩策略，将高分辨率图像在KV缓存中仅保留约90个视觉条目，实现超7000倍的压缩，使思考过程更“轻量”。在一系列高难度视觉QA任务中，该模型的表现超过了GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等模型。

上一篇：美国国家安全局测试Mythos模型称对其威力印象深刻

下一篇：ChatGPT卸载暴涨413% Claude下载激增100% 奥特曼帝国开始漏水了

返回列表

热文阅读

2 天前

紫光股份拟定增募资不超过55.7亿元，用于收购新华三6.98%股权等事项

1 天前

史上最大IPO，要黄了？

2 天前

产教融合新标杆！中兴通讯与深圳信息职大签署战略合作，共育数字时代高技能人才

1 天前

华为鸿蒙“龙虾”小艺 Claw 迎重磅更新：上线“自进化”能力、接入 DeepSeek V4