1月27日,DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文,并开源了DeepSeek-OCR 2模型。该模型采用创新的DeepEncoder V2方法,使AI能够基于图像含义动态重排图像部分,更接近人类视觉编码逻辑。在具体实现上,该模型架构采用Qwen2-0.5B实例化,通过引入可学习的“因果流查询”,在编码阶段对视觉信息进行智能重排序,构建了一个两级级联的1D因果推理结构。这一创新使DeepSeek-OCR 2在处理布局复杂的图片时,表现优于传统视觉-语言模型,实现了更智能、更具因果推理能力的视觉理解。在OmniDocBench v1.5基准测试中,该模型取得了91.09%的成绩,相较于前代提升了3.73%。同时,该模型严格控制了计算成本,视觉Token数量限制在256至1120之间。在实际生产环境中,该模型在处理在线用户日志和PDF预训练数据时,重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度。
