2026年1月27日,DeepSeek团队发布技术报告并开源了新一代OCR专用模型DeepSeek-OCR 2。作为前代DeepSeek-OCR的升级版本,该模型通过引入DeepEncoder V2架构,实现了视觉编码从固定扫描向语义推理的范式转变。其核心创新在于提出“视觉因果流”机制,使模型能够基于图像语义动态重排处理顺序,更贴近人类阅读逻辑。在权威基准测试OmniDocBench v1.5中,DeepSeek-OCR 2以91.09%的综合得分较前代提升3.73%,尤其在文档阅读顺序的编辑距离指标上降低33%,证明其逻辑结构理解能力显著增强。该模型通过双向注意力机制捕捉全局视觉信息,并利用因果注意力机制动态推理最优处理路径,仅需256至1120个视觉标记即可高效压缩复杂文档内容。在实际生产环境中,模型处理在线用户日志和PDF数据的重复率分别下降2.08%和0.81%,展现出高实用价值。此次升级不仅提升了OCR性能,更验证了语言模型架构用于视觉编码的潜力,为统一多模态编码器提供了技术路径。
