project
Unlimited-OCR - 百度开源的端到端长文档 OCR 模型
Unlimited-OCR 是百度推出的端到端长文档 OCR 模型,通过 Reference Sliding Window Attention机制将解码器 KV cache 从线性增长压缩为常数,实现单次前向转...
Unlimited-OCR是什么
Unlimited-OCR 是百度推出的端到端长文档 OCR 模型,通过 Reference Sliding Window Attention机制将解码器 KV cache 从线性增长压缩为常数,实现单次前向转录数十页文档。模型基于 3B 总参 MoE 架构,在 OmniDocBench v1.6 上以 93.92% 总分取得端到端 SOTA,推理速度达 5580 TPS,代码与权重已全面开源。
Unlimited-OCR的主要功能
-
超长文档一次识别:支持 2 页至 40+ 页 PDF 文档的单次前向转录,无需逐页 for 循环处理。
-
多类型文档解析:覆盖 PPT、学术论文、书籍、彩色教材、试卷、杂志、报纸、笔记、研究报告等 9 类版式。
-
高精度内容提取:文本、公式、表格、阅读顺序全链路端到端输出,公式 CDM 达 95.79%,表格 TEDS 达 93.32%。
-
双分辨率视觉编码:Base 模式 1024×1024 用于多页长文档,Gundam 模式动态分辨率用于单页高精度识别。
-
常数延迟推理:无论输出序列多长,KV cache 恒定为 m+n,推理延迟与显存占用保持水平稳定。
Unlimited-OCR的技术原理
-
R-SWA 注意力机制:每个生成 token 仅关注全部参考 token(视觉+提示词)和最近 128 个输出 token,视觉 token 被排除在滑动窗口状态转移之外,避免长程生成中视觉特征被逐步糊化。
-
常数 KV Cache 设计:将 KV cache 实现为容量 m+n 的队列,每生成一个新 token 即淘汰第 (m+1) 个 token,计算成本与内存占用不随序列长度递增。
-
DeepEncoder 视觉编码:沿用 SAM-ViT 级联 CLIP-ViT 架构,通过 bridge 层做 16 倍 token 压缩,1024×1024 图像压缩为 256 个视觉 token,编码一次后冻结。
-
MoE-LLM 解码器:3B 总参、500M 激活的 MoE 架构,全部注意力层替换为 R-SWA,基于 DeepSeek-OCR checkpoint 续训 4000 步,全局 batch 256,最大序列 32K。
-
推理引擎优化:在 Transformers 与 SGLang 中均实现常数 TPS 与常数显存的 KV cache 管理,Flash Attention v3 内核下 per-call 延迟全程水平。
微信关注回复 “开源”,加入AI开源项目交流群
如何使用Unlimited-OCR
-
模型下载:通过 Hugging Face
baidu/Unlimited-OCR或 GitHubbaidu/Unlimited-OCR获取代码与权重。 -
环境准备:支持 Transformers 库与 SGLang 推理引擎,需配置对应 GPU 环境。
-
输入格式:支持 PDF 页面图像输入,Base 模式用于多页长文档,Gundam 模式用于单页高分辨率识别。
-
推理调用:单次前向即可完成整本/整份文档的 OCR 转录,无需外部调度器分页处理。
-
扩展应用:R-SWA 机制可迁移至 ASR、翻译、字幕生成等长输出任务。
Unlimited-OCR的核心优势
-
SOTA 识别精度:OmniDocBench v1.5 总分 93.23%,v1.6 总分 93.92% 端到端第一。
-
常数资源占用:KV cache 不随文档页数增长,20 页、40+ 页长文档显存与延迟保持稳定。
-
速度随长度放大:输出越长优势越明显,6144 token 时理论 TPS 上限较 DeepSeek-OCR 领先约 35%。
-
通用解码架构:R-SWA 非 OCR 专属 trick,适用于任何”参考源+长输出”的生成任务。
-
轻量开源:3B 总参、500M 激活,模型与代码已开源,便于部署与二次开发。
Unlimited-OCR的项目地址
- GitHub仓库:https://github.com/baidu/Unlimited-OCR
- HuggingFace模型库:https://github.com/baidu/Unlimited-OCR
Unlimited-OCR的同类竞品对比
| 维度 | Unlimited-OCR | DeepSeek-OCR |
|---|---|---|
| 模型规模 | 3B-A0.5B (MoE) | 3B-A0.5B (MoE) |
| 注意力机制 | R-SWA(参考滑动窗口注意力) | 标准全注意力 |
| KV Cache 增长 | 常数(m+n),不随序列长度增加 | 线性增长,随输出序列持续累积 |
| OmniDocBench v1.5 总分 | 93.23% | 87.01% |
| OmniDocBench v1.6 总分 | 93.92% | 90.25%(DeepSeek-OCR 2) |
| 文本编辑距离 | 0.038 | 0.073 |
| 公式 CDM | 92.61% | 83.37% |
| 表格 TEDS | 90.93% | 84.97% |
| 阅读顺序编辑距离 | 0.045 | 0.086 |
| 推理速度 | 5580 TPS,全程常数延迟 | 4951 TPS,延迟随长度递增 |
| 长文档支持 | 单次前向 40+ 页,无需分页 | 长序列受限于 KV cache 膨胀,需分页处理 |
| 训练基础 | 基于 DeepSeek-OCR checkpoint 续训 4000 步 | 基座模型 |
Unlimited-OCR的应用场景
-
企业档案数字化:批量处理成百上千页扫描版 PDF、古籍、合订本,无需拆分即可一次性结构化提取。
-
学术文献解析:整本论文、期刊合辑、研究报告的端到端转录,保留公式、表格与阅读顺序。
-
教育试卷批改:多页试卷、练习册的批量识别,支持彩色教材与复杂版式。
-
法律合同审核:长篇幅合同文本的精准 OCR 提取,用于后续 NLP 分析与合规审查。
-
多语言翻译流水线:作为 R-SWA 通用解码方案的验证场景,可扩展至 ASR、字幕生成等长序列任务。