昨晚,DeepSeek多模态研究员陈小康在X上发布并随后删除了关于多模态技术新论文《Thinking with Visual Primitives》的推文,该论文提出了一种创新的多模态推理范式,通过引入视觉原语(点和边界框)来弥补“指代鸿沟”,即模型在推理时无法精确定位视觉对象的问题。论文详细介绍了模型架构、视觉压缩技术、训练数据构建及后训练策略,实验结果显示在计数、空间推理等任务上超越了GPT-5.4等主流模型。