2026年4月30日,DeepSeek在GitHub发布多模态技术报告《Thinking with Visual Primitives(以视觉原语思考)》,阐释了其灰度上线的DeepSeek识图模式背后的技术细节。该模型基于DeepSeek V4-Flash(284B总参数、推理时激活13B的MoE架构)构建,提出了一种全新的多模态推理范式,将纯粹的语言推理链条升级为“语言逻辑+空间坐标”交织的双轨思维。模型在推理时,会像人一样直接输出具体的框或点,在图中精准“指”出思考对象,并持续引用这些视觉锚点进行下一步判断,极大提升了视觉推理的准确性。该模型通过视觉压缩策略,将高分辨率图像在KV缓存中仅保留约90个视觉条目,实现超7000倍的压缩,使思考过程更“轻量”。在一系列高难度视觉QA任务中,该模型的表现超过了GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等模型。
