DeepSeek最新王炸模型：VLM架构重磅突破 AI像人一样读图

1 周前

2026年1月27日，DeepSeek团队发布技术报告并开源了新一代OCR专用模型DeepSeek-OCR 2。作为前代DeepSeek-OCR的升级版本，该模型通过引入DeepEncoder V2架构，实现了视觉编码从固定扫描向语义推理的范式转变。其核心创新在于提出“视觉因果流”机制，使模型能够基于图像语义动态重排处理顺序，更贴近人类阅读逻辑。在权威基准测试OmniDocBench v1.5中，DeepSeek-OCR 2以91.09%的综合得分较前代提升3.73%，尤其在文档阅读顺序的编辑距离指标上降低33%，证明其逻辑结构理解能力显著增强。该模型通过双向注意力机制捕捉全局视觉信息，并利用因果注意力机制动态推理最优处理路径，仅需256至1120个视觉标记即可高效压缩复杂文档内容。在实际生产环境中，模型处理在线用户日志和PDF数据的重复率分别下降2.08%和0.81%，展现出高实用价值。此次升级不仅提升了OCR性能，更验证了语言模型架构用于视觉编码的潜力，为统一多模态编码器提供了技术路径。

上一篇：DeepSeek-OCR 2发布：让AI像人一样“读懂”复杂文档

下一篇：欧盟要求Google向竞争对手的AI系统开放Android

返回列表

热文阅读

1 天前

百度不想“掉队”：5亿红包“撞车”腾讯AI社交

2 天前

一文彻底看懂 6G

1 天前

moltbook爆火背后：人类操控？伪造截图？Karpathy发风险提醒

2 天前

特斯拉 Robotaxi 战略揭秘：双座 Cybercab 主攻九成出行场景，Model Y/Robovan 补位