文章目录
- 综合性工具
- 专门的表格提取工具
- 经典工具
综合性工具
PDF-Extract-Kit - opendatalab开发的综合工具包,包含布局检测、公式检测、公式识别和OCR功能
- 仓库:
opendatalab/PDF-Extract-Kit
- 特点:功能全面,包含表格内容提取的StructEqTable模块
marker - VikParuchuri开发的高精度PDF转换工具,支持将PDF转换为markdown和JSON格式
- 仓库:
VikParuchuri/marker
- 特点:支持表格、公式、链接、代码块等结构化提取,性能优秀
专门的表格提取工具
pdfplumber - Jeremy Singer-Vine开发的详细PDF分析工具,可以提取文本和表格
- 仓库:
jsvine/pdfplumber
- 特点:提供字符级别的详细信息,表格提取功能强大
TableExtractor-Advanced-PDF-Table-Extraction - 专门用于从扫描PDF文档中提取表格的Python项目,使用OCR和图像处理技术
- 仓库:
Baskar-forever/TableExtractor-Advanced-PDF-Table-Extraction
Table-extraction-from-PDF-and-Images - 支持从PDF和图片中提取表格数据到CSV或XML格式
- 仓库:
anudeep-20/Table-extraction-from-PDF-and-Images
pdf-table-extract - ashima开发的PDF页面表格提取工具
- 仓库:
ashima/pdf-table-extract
经典工具
camelot-py - 虽然搜索结果中没有显示,但这是最受欢迎的PDF表格提取库之一
- 仓库:
camelot-dev/camelot
- 特点:专门用于表格提取,准确度高
tabula-py - Tabula的Python封装
- 仓库:
chezou/tabula-py
- 特点:简单易用,适合快速提取表格