project
PaddleOCR-VL-1.6 - 百度推出的文档解析视觉语言模型
PaddleOCR-VL-1.6 是百度飞桨团队推出的文档解析视觉语言模型(VLM),是 PaddleOCR-VL 系列的最新升级版本。
PaddleOCR-VL-1.6是什么
PaddleOCR-VL-1.6 是百度飞桨团队推出的文档解析视觉语言模型(VLM),是 PaddleOCR-VL 系列的最新升级版本。模型仅 0.9B 参数,在 OmniDocBench v1.6 权威基准测试中达到 96.33% 的全新 SOTA 成绩,同时在 OmniDocBench v1.5 和 Real5-OmniDocBench 上刷新纪录,文本、公式、表格识别全面领先开源与闭源方案。模型架构与 1.5 版本完全一致,支持零成本即插即用迁移。
PaddleOCR-VL-1.6的主要功能
-
文本识别:通用文本识别,支持 109 种语言,OmniDocBench v1.6 文本得分 96.8。
-
公式识别:数学公式 LaTeX 识别,得分 97.5,超越 GLM-OCR 和 MinerU。
-
表格识别:复杂表格结构解析(含合并单元格、多层表头),TEDS 得分 94.8。
-
古籍识别:中文古籍、竖排文字识别能力大幅提升。
-
生僻字识别:罕见汉字识别显著增强。
-
印章识别:公章/印章文字提取与定位。
-
图表识别:饼图、折线图等 11 类图表解析为结构化数据。
-
文本检测(Spotting):自然场景文字检测。
-
结构化输出:支持 Markdown、JSON、DOCX 格式导出。
-
跨页表格合并:自动识别并合并跨页表格。
PaddleOCR-VL-1.6的技术原理
- 两阶段解耦架构:模型采用”版面分析+VLM识别”的两阶段设计:第一阶段由 PP-DocLayoutV3 检测 25 类文档元素并输出阅读顺序与坐标;第二阶段由 0.9B 参数的 VLM 逐元素识别。VLM 内部使用 NaViT 动态分辨率视觉编码器自适应处理不同尺寸图像,配合 ERNIE-4.5-0.3B 语言模型生成结构化输出,避免固定分辨率导致的小字信息丢失。
- 零架构改动的数据驱动升级:1.6 版本与 1.5 模型结构完全一致,性能飞跃完全来自数据与训练策略优化。团队通过分析 1.5 在 OmniDocBench 各子项的薄弱区域,对古籍、生僻字、印章、复杂表格等场景实施定向数据增强。
- 区域感知数据增强:针对薄弱区域引入 CV 模拟失真技术,在公式、文本等训练数据中模拟扫描、倾斜、光照、屏幕拍摄等真实物理畸变;同时扩展文本发现任务的最大分辨率至 2048×28×28 像素,注入大规模印章、古籍专项数据,显著提升真实场景鲁棒性。
- 渐进式三阶段训练:采用”预训练→SFT→强化学习”的渐进方案:预训练数据从 2900 万扩至 4600 万图像-文本对;SFT 阶段在原有 OCR、表格、公式基础上新增印章识别和文本发现任务;最后通过 GRPO 强化学习进一步对齐输出质量,实现多任务统一。
如何使用PaddleOCR-VL-1.6
- 本地安装(Python):安装
paddlepaddle-gpu==3.2.1(CUDA 12.6),执行pip install -U "paddleocr[doc-parser]",完成环境配置后可使用。 - 命令行使用:安装后运行
paddleocr doc_parser -i your_document.png或paddleocr doc_parser -i document.pdf,直接输出解析结果,支持单张图片和 PDF 批量处理。 - Python API:导入
PaddleOCRVL类初始化 pipeline,调用predict()传入图片路径,结果可通过print()查看,或使用save_to_json()、save_to_markdown()保存为结构化文件。 - Docker 部署(生产环境):拉取官方镜像
ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-vl:latest-nvidia-gpu,启动容器后直接在容器内运行,适合服务器部署。 - 推理服务部署:执行
paddleocr genai_server一键启动 HTTP 服务,支持 vLLM、SGLang、FastDeploy、Transformers、llama.cpp 等多种后端,适合高并发 API 调用场景。
PaddleOCR-VL-1.6的核心优势
-
SOTA 精度:OmniDocBench v1.6 达 96.33%,文本、公式、表格全维度第一
-
极致轻量:0.9B 参数,远小于 Qwen3-VL-235B、GPT-5.2 等通用大模型
-
零成本迁移:架构与 1.5 完全一致,直接替换权重即可
-
真实场景鲁棒:在扫描、扭曲、屏幕拍摄、光照变化、倾斜 5 大场景均刷新 SOTA
-
多硬件支持:NVIDIA GPU(含 Blackwell)、Apple Silicon、昆仑芯、昇腾、AMD、Intel
PaddleOCR-VL-1.6的项目地址
- GitHub仓库:https://github.com/PaddlePaddle/PaddleOCR
- HuggingFace模型库:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6
PaddleOCR-VL-1.6的同类竞品对比
| 对比维度 | PaddleOCR-VL-1.6 | GLM-OCR | MinerU 2.5 |
|---|---|---|---|
| 开发方 | 百度飞桨 | 智谱 AI | 上海 AI Lab / 清华 |
| 参数规模 | 0.9B | 0.9B | 1.2B |
| OmniDocBench v1.6 | 96.33% | 95.22% | 95.75% |
| 文本识别 | 96.8 | 94.0 | – |
| 公式识别 | 97.5 | 96.5 | – |
| 表格识别 (TEDS) | 94.8 | 85.2 | 88.4 |
| 真实场景鲁棒性 | SOTA | ️ 基础 | ️ 基础 |
| 古籍/生僻字 | 显著增强 | 支持 | ️ 一般 |
| 印章识别 | 增强 | 支持 | 未提及 |
| 部署成本 | 极低 | 极低 | 中等 |
| 开源协议 | 开源免费 | 开源免费 | 开源免费 |
PaddleOCR-VL-1.6的应用场景
- 文档数字化:将纸质档案、书籍、论文扫描件转换为 Markdown 或 JSON 结构化电子文档,支持批量处理。
企业办公:自动提取合同、发票、报表、审批单中的关键信息,对接 ERP 或 OA 系统实现流程自动化。
教育科研:识别学术论文中的复杂公式(LaTeX 输出)和表格数据,辅助文献整理与知识提取。
金融服务:解析银行票据、财务报表、对账单,实现数据自动录入与合规审计。
医疗健康:结构化录入病历、检查报告、处方单,支持医院信息化系统对接。