【MinerU】Pipeline 与 Auto-Engine 模式
Pipeline 与 Auto-Engine 模式一、两种模式的区别Pipeline 模式传统多模型流水线采用多个专用模型串行处理PDF → 版面检测 → 公式识别 → OCR → 表格识别 → 后处理 → 输出使用 PPDocLayout版面、UniMERNet公式、PaddleOCR文字、RapidTable表格等独立模型精度 85OmniDocBench v1.6支持 CPU 推理最低 4GB 显存即可无幻觉风险确定性处理不涉及 AI 生成支持 109 种语言 OCRAuto-Engine 模式VLM OCR 双引擎分为hybrid-auto-engine默认和vlm-auto-engine两种核心是引入了视觉语言模型VLMPDF → 文本类型判断 → ├─ 文本PDF: 原生文本提取 → VLM 理解 → 后处理 └─ 扫描PDF: VLM 分析 → OCR 兜底 → 后处理 → 输出使用MinerU2.5-Pro-2604-1.2BVLM 模型进行文档理解精度 95OmniDocBench v1.6需要 8GB 显存不支持 CPU对复杂版面、跨页表格、复杂公式等场景效果显著更好核心差异对比维度PipelineAuto-Engine精度8595硬件要求CPU 或 4GB 显存8GB 显存必须 GPU处理方式多模型串行流水线VLM 理解 OCR 双引擎幻觉风险无低原生文本提取降低风险适用场景大批量、资源受限环境高精度、复杂文档速度简单文档更快较慢但更准为什么 Pipeline 精度只有 85Pipeline 依赖多个独立专用模型串行工作每个模型各自优化但各环节误差会累积版面检测的误差传给 OCROCR 的误差传给后处理且缺乏对文档全局语义的理解。而 Auto-Engine 利用 VLM 对文档进行端到端的理解能更好地处理复杂版面、旋转表格、复杂公式等 Corner Case因此精度更高。简言之追求精度和复杂文档效果选 Auto-Engine追求速度/兼容性/低成本选 Pipeline。二、GPU 模式 Auto-Engine 设置指南1. 硬件前提GPU: Volta 架构及以上V100, RTX 20xx/30xx/40xx, A100, H100 等显存: 最低 8GB内存: 最低 16GB建议 32GBCUDA: 12.9.1 或更高版本驱动用nvidia-smi检查2. 安装pipinstall--upgradepip pipinstalluv uv pipinstall-Umineru[all]或者只安装特定推理引擎# Linux 推荐 vllm速度更快uv pipinstallmineru[core,vllm]# Windows 推荐 lmdeployuv pipinstallmineru[core,lmdeploy]Windows 用户注意需要先手动安装 GPU 版 PyTorch到 https://pytorch.org/get-started/locally/ 选择对应 CUDA 版本的安装命令。3. 下载模型# 交互式选择下载mineru-models-download# 或直接下载全部模型mineru-models-download-mall# 只下载 VLM 模型mineru-models-download-mvlm国内用户可切换 ModelScope 源加速# Linux/macOSexportMINERU_MODEL_SOURCEmodelscope# WindowssetMINERU_MODEL_SOURCEmodelscope4. 运行# 默认就是 hybrid-auto-engine直接运行即可mineru-p输入PDF路径-o输出目录# 显式指定后端mineru-p输入PDF路径-o输出目录-bhybrid-auto-engine# 或使用纯 VLM 模式仅中英文mineru-p输入PDF路径-o输出目录-bvlm-auto-engine5. 显存不足时的调优如果显存不够 8GB可以调小 batch ratio# 6GB 显存# Linux/macOSexportMINERU_HYBRID_BATCH_RATIO8# WindowssetMINERU_HYBRID_BATCH_RATIO8# 4GB 显存setMINERU_HYBRID_BATCH_RATIO46. 指定 GPU 设备# 使用第 0 块 GPU# Linux/macOSCUDA_VISIBLE_DEVICES0mineru-p输入-o输出# WindowssetCUDA_VISIBLE_DEVICES0mineru-p输入-o输出7. 推理引擎自动选择系统会根据平台自动选择最优推理引擎无需手动配置平台优先引擎备选Linuxvllmlmdeploy → transformersWindowslmdeploytransformersmacOSmlxtransformers8. 可用的后端总结后端说明hybrid-auto-engine默认VLMOCR 混合精度最高多语言vlm-auto-engine纯 VLM仅中英文pipeline传统流水线CPU 可用精度 85总结安装后默认就是hybrid-auto-engine模式只要你有 8GB 显存的 GPU 并正确安装了 CUDA 和 GPU 版 PyTorch直接运行mineru -p xxx -o xxx即可。三、详细技术原理对比3.1 Pipeline 模式使用的模型清单Pipeline 模式加载 6 类专用模型每个模型各司其职模型类型模型名称路径作用版面检测PPDocLayoutV2models/Layout/PP-DocLayoutV2检测文档中的文本、标题、表格、图片、公式等区域公式识别UniMERNet (默认)models/MFR/unimernet_hf_small_2503将数学公式转为 LaTeX公式识别PP-FormulaNet Plus M (可选)models/MFR/pp_formulanet_plus_m中文公式优化需设置MINERU_FORMULA_CH_SUPPORT1OCR 文字识别PytorchPaddleOCRmodels/OCR/paddleocr_torch109 种语言的文字检测与识别表格结构识别SlanetPlus (无线表)models/TabRec/SlanetPlus/slanet-plus.onnx无边框表格的结构识别输出 HTML表格结构识别Unet (有线表)models/TabRec/UnetStructure/unet.onnx有边框表格的结构识别输出 HTML表格分类PaddleTableClsmodels/TabCls/paddle_table_cls/PP-LCNet_x1_0_table_cls.onnx判断表格是有线表还是无线表方向分类PaddleOrientationClsmodels/OriCls/paddle_orientation_classification/PP-LCNet_x1_0_doc_ori.onnx检测并纠正表格旋转3.2 Auto-Engine 模式使用的模型清单Auto-Engine 以 VLM 为核心辅以传统模型模型类型模型名称作用使用场景VLMMinerU2.5-Pro-2604-1.2B端到端文档理解提取文本、表格、公式、图片核心模型处理所有页面版面检测PPDocLayoutV2仅用于行内公式检测框hybrid 模式启用行内公式时公式识别UniMERNet行内公式识别hybrid 模式启用行内公式时OCRPytorchPaddleOCR文本 PDF 原生文本提取的补充hybrid 模式部分场景3.3 MinerU2.5-Pro-2604-1.2B 是什么这是 MinerU 自研的文档理解视觉语言模型VLM基于 Qwen2VL 架构参数量1.2B小模型大能力架构解耦的视觉-语言架构高效高分辨率文档解析性能超越 Gemini 2.5 Pro、GPT-4o、Qwen2.5-VL-72B推理方式两步提取初始分析 详细提取最低显存8GB3.4 Pipeline 处理流程详解PDF 输入 ↓ PDF 分类文本型 vs 扫描型 ↓ 按窗口分批处理默认 64 页一批 ↓ 对每批执行以下步骤 ① 版面检测 (PPDocLayoutV2) 输入页面 PIL 图片 输出各元素边界框 类别标签 类别text, title, table, image, equation, abstract, doc_title, paragraph_title, vertical_text, seal, header, footer 等 ② 公式识别 (UniMERNet) 输入检测到的公式区域图片 输出LaTeX 字符串 支持行间公式 行内公式 ③ 表格识别多步骤 ③a 方向分类 → 检测并纠正表格旋转 ③b 表格分类 → 判断有线表/无线表 ③c 表格 OCR → 提取单元格文字 ③d 结构识别 → 输出 HTML 表格 ④ 文字 OCR (PaddleOCR) ④a 检测 → 按语言和分辨率分组批处理 ④b 识别 → 按语言分组识别文字内容 ④c 过滤 → 置信度过滤低质量结果 ④d 行内公式屏蔽 → 避免 OCR 误识别公式区域 ⑤ 印章识别 专用 OCR 模型处理印章区域 ↓ 流式写入中间结果 (middle_json) ↓ 后处理阅读顺序、页眉页脚去除、结果合并 ↓ 输出结构化 Markdown / JSONPipeline 的核心特点每个模型独立工作前一步的输出是后一步的输入。版面检测不准确会直接导致 OCR 和公式识别的区域错误误差会逐级放大。3.5 Hybrid-Auto-Engine 处理流程详解PDF 输入 ↓ PDF 分类文本型 vs 扫描型 ↓ 判断是否启用 VLM-OCR 条件中文/英文 启用行内公式 扫描型 PDF ↓ 按窗口分批处理默认 64 页一批 ↓ 对每批执行以下步骤 ┌─────────────────────────────────────────┐ │ VLM 两步提取 (MinerU2.5-Pro-2604-1.2B) │ │ │ │ 第一步初始分析 │ │ 输入页面图片 │ │ 输出检测所有元素 边界框 类型 │ │ VLM 理解文档全局结构 │ │ │ │ 第二步详细提取 │ │ 根据文档类型走不同路径 │ │ │ │ 路径 AVLM-OCR 启用中英文扫描PDF │ │ VLM 直接执行 OCR 提取全部内容 │ │ → 文本、表格结构、公式 LaTeX │ │ │ │ 路径 BVLM-OCR 未启用 │ │ VLM 提取结构图片、表格、行间公式 │ │ → 屏蔽 VLM 已识别区域 │ │ → 版面模型检测行内公式框 │ │ → OCR 模型处理剩余文本区域 │ │ → 公式模型识别行内公式 │ └─────────────────────────────────────────┘ ↓ 结果合并VLM 结果 OCR/公式结果融合 ↓ 流式写入中间结果 (middle_json) ↓ 后处理归一化边界框、置信度过滤 ↓ 输出结构化 Markdown / JSONHybrid 的核心特点VLM 作为大脑统领全局传统模型作为工具辅助。VLM 先理解整页内容再决定哪些区域需要调用传统模型补充。3.6 VLM-Auto-Engine 处理流程详解PDF 输入 ↓ 按窗口分批处理 ↓ 对每批执行 VLM 两步提取纯 VLM无传统模型辅助 - 不调用 OCR、版面检测等模型 - VLM 独立完成所有提取任务 ↓ 输出结构化 Markdown / JSONVLM 模式最简单完全依赖视觉语言模型不使用任何传统专用模型。但仅对中文和英文效果好。3.7 三种模式在各个处理阶段的对比处理阶段PipelineHybrid-Auto-EngineVLM-Auto-Engine版面检测PPDocLayoutV2 模型VLM PPDocLayoutV2仅行内公式仅 VLM公式识别UniMERNet 模型VLM UniMERNet行内公式仅 VLM文字识别PaddleOCR109 种语言VLM 直接提取 PaddleOCR 兜底仅 VLM仅中英文表格识别SlanetPlus Unet 模型VLM 识别 OCR 补充仅 VLM文本 PDFOCR 提取文字原生文本提取直接读 PDF 内嵌文字VLM 提取扫描 PDF全量 OCR 流水线VLM 分析 OCR 兜底VLM 提取误差传播有级联放大极小VLM 统领全局极小3.8 Hybrid 模式的文本 PDF 处理优势Hybrid 模式对文本型 PDF 有独特优势——原生文本提取文本型 PDF ↓ 不走 OCR直接读取 PDF 内嵌的文字内容 ↓ VLM 理解文档结构标题、段落、表格等 ↓ 合并原生文字 VLM 结构理解 ↓ 输出这意味着零 OCR 误差文字直接从 PDF 提取不存在识别错误零幻觉风险不需要 AI 生成文字只是理解结构速度快跳过了 OCR 检测和识别两个耗时步骤文字保真度高保留原始文字内容和格式3.9 显存与批处理策略Hybrid 模式会根据 GPU 显存自动调整批处理大小显存batch_ratio说明 32GB16最大批处理 16GB8高性能 12GB4中等 8GB2最低要求 8GB1可能 OOM也可通过环境变量手动覆盖exportMINERU_HYBRID_BATCH_RATIO4# 手动设置四、不同文档场景的精度对比4.1 各类文档处理效果文档类型PipelineHybridVLM说明简单文本文档优秀优秀优秀单栏、格式规整的论文/报告多栏排版良好优秀优秀报纸、杂志、双栏论文复杂嵌套布局一般优秀优秀混排图文、嵌套表格数学公式良好优秀优秀大量行内/行间公式跨页表格支持优秀优秀表格跨多页自动合并旋转/倾斜内容一般优秀优秀扫描件歪斜、旋转表格多语言文档优秀109种良好有限中英Pipeline 语言支持最广手写内容一般良好良好手写笔记、批注印章支持支持有限印章文字识别图片内文字一般良好良好图表中的标注文字4.2 精度差异的根本原因Pipeline 精度上限受限于三个因素误差累积版面检测不准 → OCR 区域错误 → 文字错误 → 表格结构错误缺乏全局语义每个模型只看局部特征不理解这是一篇论文或这是财务报表规则化后处理阅读顺序、段落合并等依赖规则遇到非标排版容易出错Auto-Engine 精度更高的三个原因端到端理解VLM 同时看到整页内容理解文档全局结构和语义原生文本提取文本 PDF 直接提取内嵌文字消除 OCR 误差智能后处理VLM 理解上下文后做出的结构判断比规则更准确五、选型建议什么时候选 Pipeline服务器只有 CPU没有 GPUGPU 显存不足 8GB需要处理大量简单文档追求吞吐量文档涉及中文以外的多语言日/韩/阿拉伯/俄语等对确定性输出有严格要求不能有任何幻觉资源受限的嵌入式/边缘环境什么时候选 Hybrid-Auto-Engine默认推荐有 8GB 显存的 GPU对解析精度有较高要求文档包含复杂版面、跨页表格、复杂公式中英文文档为主生产环境追求最佳效果什么时候选 VLM-Auto-Engine纯中英文文档需要最高精度不需要多语言支持研究/评估用途
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2581104.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!