【MinerU】Pipeline 与 Auto-Engine 模式

news2026/5/4 8:40:13
Pipeline 与 Auto-Engine 模式一、两种模式的区别Pipeline 模式传统多模型流水线采用多个专用模型串行处理PDF → 版面检测 → 公式识别 → OCR → 表格识别 → 后处理 → 输出使用 PPDocLayout版面、UniMERNet公式、PaddleOCR文字、RapidTable表格等独立模型精度 85OmniDocBench v1.6支持 CPU 推理最低 4GB 显存即可无幻觉风险确定性处理不涉及 AI 生成支持 109 种语言 OCRAuto-Engine 模式VLM OCR 双引擎分为hybrid-auto-engine默认和vlm-auto-engine两种核心是引入了视觉语言模型VLMPDF → 文本类型判断 → ├─ 文本PDF: 原生文本提取 → VLM 理解 → 后处理 └─ 扫描PDF: VLM 分析 → OCR 兜底 → 后处理 → 输出使用MinerU2.5-Pro-2604-1.2BVLM 模型进行文档理解精度 95OmniDocBench v1.6需要 8GB 显存不支持 CPU对复杂版面、跨页表格、复杂公式等场景效果显著更好核心差异对比维度PipelineAuto-Engine精度8595硬件要求CPU 或 4GB 显存8GB 显存必须 GPU处理方式多模型串行流水线VLM 理解 OCR 双引擎幻觉风险无低原生文本提取降低风险适用场景大批量、资源受限环境高精度、复杂文档速度简单文档更快较慢但更准为什么 Pipeline 精度只有 85Pipeline 依赖多个独立专用模型串行工作每个模型各自优化但各环节误差会累积版面检测的误差传给 OCROCR 的误差传给后处理且缺乏对文档全局语义的理解。而 Auto-Engine 利用 VLM 对文档进行端到端的理解能更好地处理复杂版面、旋转表格、复杂公式等 Corner Case因此精度更高。简言之追求精度和复杂文档效果选 Auto-Engine追求速度/兼容性/低成本选 Pipeline。二、GPU 模式 Auto-Engine 设置指南1. 硬件前提GPU: Volta 架构及以上V100, RTX 20xx/30xx/40xx, A100, H100 等显存: 最低 8GB内存: 最低 16GB建议 32GBCUDA: 12.9.1 或更高版本驱动用nvidia-smi检查2. 安装pipinstall--upgradepip pipinstalluv uv pipinstall-Umineru[all]或者只安装特定推理引擎# Linux 推荐 vllm速度更快uv pipinstallmineru[core,vllm]# Windows 推荐 lmdeployuv pipinstallmineru[core,lmdeploy]Windows 用户注意需要先手动安装 GPU 版 PyTorch到 https://pytorch.org/get-started/locally/ 选择对应 CUDA 版本的安装命令。3. 下载模型# 交互式选择下载mineru-models-download# 或直接下载全部模型mineru-models-download-mall# 只下载 VLM 模型mineru-models-download-mvlm国内用户可切换 ModelScope 源加速# Linux/macOSexportMINERU_MODEL_SOURCEmodelscope# WindowssetMINERU_MODEL_SOURCEmodelscope4. 运行# 默认就是 hybrid-auto-engine直接运行即可mineru-p输入PDF路径-o输出目录# 显式指定后端mineru-p输入PDF路径-o输出目录-bhybrid-auto-engine# 或使用纯 VLM 模式仅中英文mineru-p输入PDF路径-o输出目录-bvlm-auto-engine5. 显存不足时的调优如果显存不够 8GB可以调小 batch ratio# 6GB 显存# Linux/macOSexportMINERU_HYBRID_BATCH_RATIO8# WindowssetMINERU_HYBRID_BATCH_RATIO8# 4GB 显存setMINERU_HYBRID_BATCH_RATIO46. 指定 GPU 设备# 使用第 0 块 GPU# Linux/macOSCUDA_VISIBLE_DEVICES0mineru-p输入-o输出# WindowssetCUDA_VISIBLE_DEVICES0mineru-p输入-o输出7. 推理引擎自动选择系统会根据平台自动选择最优推理引擎无需手动配置平台优先引擎备选Linuxvllmlmdeploy → transformersWindowslmdeploytransformersmacOSmlxtransformers8. 可用的后端总结后端说明hybrid-auto-engine默认VLMOCR 混合精度最高多语言vlm-auto-engine纯 VLM仅中英文pipeline传统流水线CPU 可用精度 85总结安装后默认就是hybrid-auto-engine模式只要你有 8GB 显存的 GPU 并正确安装了 CUDA 和 GPU 版 PyTorch直接运行mineru -p xxx -o xxx即可。三、详细技术原理对比3.1 Pipeline 模式使用的模型清单Pipeline 模式加载 6 类专用模型每个模型各司其职模型类型模型名称路径作用版面检测PPDocLayoutV2models/Layout/PP-DocLayoutV2检测文档中的文本、标题、表格、图片、公式等区域公式识别UniMERNet (默认)models/MFR/unimernet_hf_small_2503将数学公式转为 LaTeX公式识别PP-FormulaNet Plus M (可选)models/MFR/pp_formulanet_plus_m中文公式优化需设置MINERU_FORMULA_CH_SUPPORT1OCR 文字识别PytorchPaddleOCRmodels/OCR/paddleocr_torch109 种语言的文字检测与识别表格结构识别SlanetPlus (无线表)models/TabRec/SlanetPlus/slanet-plus.onnx无边框表格的结构识别输出 HTML表格结构识别Unet (有线表)models/TabRec/UnetStructure/unet.onnx有边框表格的结构识别输出 HTML表格分类PaddleTableClsmodels/TabCls/paddle_table_cls/PP-LCNet_x1_0_table_cls.onnx判断表格是有线表还是无线表方向分类PaddleOrientationClsmodels/OriCls/paddle_orientation_classification/PP-LCNet_x1_0_doc_ori.onnx检测并纠正表格旋转3.2 Auto-Engine 模式使用的模型清单Auto-Engine 以 VLM 为核心辅以传统模型模型类型模型名称作用使用场景VLMMinerU2.5-Pro-2604-1.2B端到端文档理解提取文本、表格、公式、图片核心模型处理所有页面版面检测PPDocLayoutV2仅用于行内公式检测框hybrid 模式启用行内公式时公式识别UniMERNet行内公式识别hybrid 模式启用行内公式时OCRPytorchPaddleOCR文本 PDF 原生文本提取的补充hybrid 模式部分场景3.3 MinerU2.5-Pro-2604-1.2B 是什么这是 MinerU 自研的文档理解视觉语言模型VLM基于 Qwen2VL 架构参数量1.2B小模型大能力架构解耦的视觉-语言架构高效高分辨率文档解析性能超越 Gemini 2.5 Pro、GPT-4o、Qwen2.5-VL-72B推理方式两步提取初始分析 详细提取最低显存8GB3.4 Pipeline 处理流程详解PDF 输入 ↓ PDF 分类文本型 vs 扫描型 ↓ 按窗口分批处理默认 64 页一批 ↓ 对每批执行以下步骤 ① 版面检测 (PPDocLayoutV2) 输入页面 PIL 图片 输出各元素边界框 类别标签 类别text, title, table, image, equation, abstract, doc_title, paragraph_title, vertical_text, seal, header, footer 等 ② 公式识别 (UniMERNet) 输入检测到的公式区域图片 输出LaTeX 字符串 支持行间公式 行内公式 ③ 表格识别多步骤 ③a 方向分类 → 检测并纠正表格旋转 ③b 表格分类 → 判断有线表/无线表 ③c 表格 OCR → 提取单元格文字 ③d 结构识别 → 输出 HTML 表格 ④ 文字 OCR (PaddleOCR) ④a 检测 → 按语言和分辨率分组批处理 ④b 识别 → 按语言分组识别文字内容 ④c 过滤 → 置信度过滤低质量结果 ④d 行内公式屏蔽 → 避免 OCR 误识别公式区域 ⑤ 印章识别 专用 OCR 模型处理印章区域 ↓ 流式写入中间结果 (middle_json) ↓ 后处理阅读顺序、页眉页脚去除、结果合并 ↓ 输出结构化 Markdown / JSONPipeline 的核心特点每个模型独立工作前一步的输出是后一步的输入。版面检测不准确会直接导致 OCR 和公式识别的区域错误误差会逐级放大。3.5 Hybrid-Auto-Engine 处理流程详解PDF 输入 ↓ PDF 分类文本型 vs 扫描型 ↓ 判断是否启用 VLM-OCR 条件中文/英文 启用行内公式 扫描型 PDF ↓ 按窗口分批处理默认 64 页一批 ↓ 对每批执行以下步骤 ┌─────────────────────────────────────────┐ │ VLM 两步提取 (MinerU2.5-Pro-2604-1.2B) │ │ │ │ 第一步初始分析 │ │ 输入页面图片 │ │ 输出检测所有元素 边界框 类型 │ │ VLM 理解文档全局结构 │ │ │ │ 第二步详细提取 │ │ 根据文档类型走不同路径 │ │ │ │ 路径 AVLM-OCR 启用中英文扫描PDF │ │ VLM 直接执行 OCR 提取全部内容 │ │ → 文本、表格结构、公式 LaTeX │ │ │ │ 路径 BVLM-OCR 未启用 │ │ VLM 提取结构图片、表格、行间公式 │ │ → 屏蔽 VLM 已识别区域 │ │ → 版面模型检测行内公式框 │ │ → OCR 模型处理剩余文本区域 │ │ → 公式模型识别行内公式 │ └─────────────────────────────────────────┘ ↓ 结果合并VLM 结果 OCR/公式结果融合 ↓ 流式写入中间结果 (middle_json) ↓ 后处理归一化边界框、置信度过滤 ↓ 输出结构化 Markdown / JSONHybrid 的核心特点VLM 作为大脑统领全局传统模型作为工具辅助。VLM 先理解整页内容再决定哪些区域需要调用传统模型补充。3.6 VLM-Auto-Engine 处理流程详解PDF 输入 ↓ 按窗口分批处理 ↓ 对每批执行 VLM 两步提取纯 VLM无传统模型辅助 - 不调用 OCR、版面检测等模型 - VLM 独立完成所有提取任务 ↓ 输出结构化 Markdown / JSONVLM 模式最简单完全依赖视觉语言模型不使用任何传统专用模型。但仅对中文和英文效果好。3.7 三种模式在各个处理阶段的对比处理阶段PipelineHybrid-Auto-EngineVLM-Auto-Engine版面检测PPDocLayoutV2 模型VLM PPDocLayoutV2仅行内公式仅 VLM公式识别UniMERNet 模型VLM UniMERNet行内公式仅 VLM文字识别PaddleOCR109 种语言VLM 直接提取 PaddleOCR 兜底仅 VLM仅中英文表格识别SlanetPlus Unet 模型VLM 识别 OCR 补充仅 VLM文本 PDFOCR 提取文字原生文本提取直接读 PDF 内嵌文字VLM 提取扫描 PDF全量 OCR 流水线VLM 分析 OCR 兜底VLM 提取误差传播有级联放大极小VLM 统领全局极小3.8 Hybrid 模式的文本 PDF 处理优势Hybrid 模式对文本型 PDF 有独特优势——原生文本提取文本型 PDF ↓ 不走 OCR直接读取 PDF 内嵌的文字内容 ↓ VLM 理解文档结构标题、段落、表格等 ↓ 合并原生文字 VLM 结构理解 ↓ 输出这意味着零 OCR 误差文字直接从 PDF 提取不存在识别错误零幻觉风险不需要 AI 生成文字只是理解结构速度快跳过了 OCR 检测和识别两个耗时步骤文字保真度高保留原始文字内容和格式3.9 显存与批处理策略Hybrid 模式会根据 GPU 显存自动调整批处理大小显存batch_ratio说明 32GB16最大批处理 16GB8高性能 12GB4中等 8GB2最低要求 8GB1可能 OOM也可通过环境变量手动覆盖exportMINERU_HYBRID_BATCH_RATIO4# 手动设置四、不同文档场景的精度对比4.1 各类文档处理效果文档类型PipelineHybridVLM说明简单文本文档优秀优秀优秀单栏、格式规整的论文/报告多栏排版良好优秀优秀报纸、杂志、双栏论文复杂嵌套布局一般优秀优秀混排图文、嵌套表格数学公式良好优秀优秀大量行内/行间公式跨页表格支持优秀优秀表格跨多页自动合并旋转/倾斜内容一般优秀优秀扫描件歪斜、旋转表格多语言文档优秀109种良好有限中英Pipeline 语言支持最广手写内容一般良好良好手写笔记、批注印章支持支持有限印章文字识别图片内文字一般良好良好图表中的标注文字4.2 精度差异的根本原因Pipeline 精度上限受限于三个因素误差累积版面检测不准 → OCR 区域错误 → 文字错误 → 表格结构错误缺乏全局语义每个模型只看局部特征不理解这是一篇论文或这是财务报表规则化后处理阅读顺序、段落合并等依赖规则遇到非标排版容易出错Auto-Engine 精度更高的三个原因端到端理解VLM 同时看到整页内容理解文档全局结构和语义原生文本提取文本 PDF 直接提取内嵌文字消除 OCR 误差智能后处理VLM 理解上下文后做出的结构判断比规则更准确五、选型建议什么时候选 Pipeline服务器只有 CPU没有 GPUGPU 显存不足 8GB需要处理大量简单文档追求吞吐量文档涉及中文以外的多语言日/韩/阿拉伯/俄语等对确定性输出有严格要求不能有任何幻觉资源受限的嵌入式/边缘环境什么时候选 Hybrid-Auto-Engine默认推荐有 8GB 显存的 GPU对解析精度有较高要求文档包含复杂版面、跨页表格、复杂公式中英文文档为主生产环境追求最佳效果什么时候选 VLM-Auto-Engine纯中英文文档需要最高精度不需要多语言支持研究/评估用途

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2581104.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…