百度开源 Unlimited OCR 模型：基于 DeepSeek OCR，解析文档告别 AI 越生成越慢 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

百度开源 Unlimited OCR 模型：基于 DeepSeek OCR，解析文档告别 AI 越生成越慢

2 小时前 / 阅读约3分钟

来源：IT之家

百度开源Unlimited OCR模型，总参数量30亿，推理时仅激活5亿参数，解决长文档解析越生成越慢问题。模型在OmniDocBench v1.5/v1.6上分别取得93.23/93.92的综合得分，刷新端到端OCR记录。

IT之家 6 月 25 日消息，百度于 6 月 22 日开源推出 Unlimited OCR 模型，总参数量 30 亿，推理时仅激活 5 亿参数，目标解决在解析长文档时，端到端 OCR 模型越生成越慢的问题。

IT之家注：端到端 OCR 模型是统一神经网络架构系统，融合检测图像中的文本和字符识别，摒弃了传统“先检测文字框、再单独识别”的繁琐流程，直接从输入图像映射到文本序列输出，从而减少信息丢失和计算冗余。

主流端到端 OCR 模型每生成 1 个 token，都会扩大 KV cache（键值缓存），显存占用和延迟随之上升，导致在用户的感知中，AI 解析多页文档后越生成越慢。

Unlimited OCR 延续 DeepSeek OCR 架构，保留 DeepEncoder 与 Mixture-of-Experts（混合专家，MoE）解码器。模型总参数量为 30 亿，但推理时只激活 5 亿参数。

Unlimited OCR 编码端采用两级视觉编码，并在连接阶段执行 16 倍 token 压缩，让 1024×1024 的 PDF 图像压缩为 256 个视觉 token，从源头减轻预填充负担。

训练方面，Unlimited OCR 基于 DeepSeek OCR 检查点继续训练 4000 步，冻结 DeepEncoder，只训练解码器。训练数据约 200 万份文档样本，运行在 8×16 A800 GPU 上。数据配比为单页与多页约 9:1，多页样本通过拼接构造。

基准测试显示，Unlimited OCR 在 OmniDocBench v1.5 上整体得分 93.23，高于 DeepSeek OCR 的 87.01，也高于 DeepSeek OCR 2 的 89.17。

其文本编辑距离为 0.038，公式 CDM 为 92.61，表格 TEDS 为 90.93，读序编辑距离为 0.045。在 OmniDocBench v1.6 上，模型整体得分进一步达到 93.92。

参考

Unlimited OCR Works Welcome the Era of One-shot Long-horizon Parsing
Unlimited OCR Works 的 GitHub 页面（已获 6.8K Star）

上一篇：光谷互连章枭枭：声纹识别+AI形成光缆运维核心竞争力

下一篇：RoboScience机器科学发布Visics通用具身大模型，实现跨本体、跨物体、跨任务｜最前线

返回列表

热文阅读

2 天前

评奖赛事｜2026世界人工智能大会SAIL奖TOP30及青年优秀论文奖TOP20发布

2 天前

车企营销不能再“乱吹”了，自动驾驶国标出台，明年7月实施

2 天前

修了30年车，他们最后败给了新能源

2 天前

DeepSeek急急急缺人，外国人也要

2 天前

「AI几小时攻破NSA」刷屏，真相竟是一场红队演习？

1 天前

中国团队拿下ICRA'26最佳论文：Agentic Coding驱动工业制造通往自主通用智能

1 天前

成立不到90天，阿里前高管创立的昆仑行机器人获数十亿元融资

1 天前

被骂了一年的Codex，怎么突然爆了？

2 天前

两万一套房的鹤壁，连夜给英伟达供货

1 天前

“新能源汽车第一省”，又多了一个挑战者

上一篇：光谷互连章枭枭：声纹识别+AI形成光缆运维核心竞争力

下一篇：RoboScience机器科学发布Visics通用具身大模型，实现跨本体、跨物体、跨任务｜最前线

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们