Chandra OCR效果实测:保留布局的HTML输出,重构Word文档
Chandra OCR效果实测保留布局的HTML输出重构Word文档最近我在处理一批扫描版的实验报告和学术论文遇到了一个老难题传统的OCR工具能把文字识别出来但表格结构全乱了公式变成了乱码页面布局也面目全非。直到我试用了Chandra OCR才真正体会到什么叫“保留原样”的文档数字化。这个模型最让我惊喜的是它输出的不是一堆零散的文字而是带有完整布局信息的HTML。表格的合并单元格、数学公式的LaTeX代码、复选框的选中状态全都被精准地保留了下来。这意味着我可以直接把扫描件变成结构化的文档然后一键转换成Word格式几乎不需要人工调整。今天我就带大家实测一下Chandra OCR的实际效果看看它如何把复杂的扫描文档变成可以直接编辑的Word文件。1. Chandra OCR不只是识别文字更是理解文档你可能用过Tesseract或者PaddleOCR这些工具确实能识别文字但它们把文档看作“一堆文字的集合”。Chandra不一样它把整个页面当作一个整体来理解。1.1 模型的核心能力Chandra基于Qwen3-VL视觉语言模型构建专门针对文档理解进行了优化。它最大的特点是全页解码——一次性处理整页内容而不是先分割再识别。这带来了几个关键优势保持阅读顺序在多栏布局、侧边栏、图文混排的复杂文档中文字的顺序不会乱识别文档结构能区分标题、正文、表格、列表等不同元素保留格式信息粗体、斜体、上标、下标等格式都能识别出来1.2 输出格式结构化的HTMLChandra最独特的地方在于它的输出格式。它不给你纯文本也不给Markdown而是直接输出带有布局标签的HTML。看看这个简单的例子div>table tr td colspan3实验组别/td /tr tr td对照组/td td实验组A/td td实验组B/td /tr !-- 更多行... -- /table看到那个colspan3了吗这就是合并单元格的正确表示。2.2 数学公式从图片到LaTeX学术论文、教科书、试卷里的数学公式一直是OCR的难点。Chandra能把行内公式和块级公式都转换成KaTeX兼容的LaTeX代码。比如扫描文档中的公式$E mc^2$Chandra会输出p质能方程mathE mc^2/math其中E代表能量.../p复杂的多行公式也能处理\begin{aligned} f(x) \int_{-\infty}^{\infty} \hat{f}(\xi) e^{2\pi i \xi x} \, d\xi \\ \hat{f}(\xi) \int_{-\infty}^{\infty} f(x) e^{-2\pi i \xi x} \, dx \end{aligned}2.3 手写内容医生笔记、填表都能读我测试了一些手写的实验记录和填写的表格Chandra对打印体手写的识别率很高草书手写也能达到可用水平。特别有用的是复选框识别。比如一份调查问卷[✓] 是 [ ] 否 [✓] 不确定Chandra会识别出input typecheckbox checked 是 input typecheckbox 否 input typecheckbox checked 不确定这个checked属性对于自动化表单处理太有用了。2.4 多语言支持中英混排没问题官方验证支持40多种语言我测试了中文、英文、日文混排的文档识别效果都很好。特别是中文文档保持了正确的段落结构和标点。3. 本地部署实战从安装到运行说了这么多效果咱们来看看怎么实际用起来。Chandra提供了两种运行方式HuggingFace本地模式和vLLM服务器模式。我推荐用vLLM因为性能更好。3.1 环境准备先说说硬件要求。Chandra模型本身大约16.6GB所以你需要GPU至少22GB显存我用的是NVIDIA A10G24GB系统Ubuntu 20.04或类似Linux发行版Python3.10或更高版本CUDA12.x版本如果你的GPU显存不够22GB也可以尝试量化版本但精度会有所下降。3.2 一步一步安装跟着我做保证你能跑起来。第一步创建项目目录和虚拟环境# 创建项目目录 mkdir ~/chandra-ocr-project cd ~/chandra-ocr-project # 创建Python虚拟环境 python3 -m venv chandra-env source chandra-env/bin/activate第二步安装Chandra OCR和相关依赖# 安装Chandra OCR核心包 pip install chandra-ocr # 安装PDF处理相关库 pip install pdf2image python-docx beautifulsoup4 # 安装系统依赖Ubuntu/Debian sudo apt-get update sudo apt-get install -y poppler-utils第三步安装vLLM推理引擎pip install vllmvLLM是专门为大规模语言模型推理优化的引擎比直接用HuggingFace快得多。3.3 启动vLLM服务器这是最关键的一步。如果你的GPU是22-24GB显存用我这个配置# 设置环境变量优化内存使用 export PYTORCH_ALLOC_CONFexpandable_segments:True # 启动vLLM服务器 vllm serve datalab-to/chandra \ --served-model-name chandra \ --port 8009 \ --max-model-len 4096 \ --gpu-memory-utilization 0.90 \ --max-num-seqs 4 \ --enforce-eager \ --dtype bfloat16我来解释一下这些参数--max-model-len 4096限制最大序列长度节省显存--gpu-memory-utilization 0.90GPU内存使用率90%留点余量--max-num-seqs 4同时处理4个请求避免内存溢出--enforce-eager禁用CUDA图启动时省内存第一次运行会下载模型大约17.5GB需要一些时间5-15分钟看网速。第四步配置客户端在项目目录下创建local.env文件VLLM_API_BASEhttp://localhost:8009/v1 VLLM_MODEL_NAMEchandra MAX_OUTPUT_TOKENS3000这个MAX_OUTPUT_TOKENS3000很重要。因为我们的最大序列长度是4096图像编码大约用掉500-1000个token留给输出的就是3000左右。第五步验证服务是否正常# 检查健康状态 curl http://localhost:8009/health # 查看模型信息 curl http://localhost:8009/v1/models如果看到返回{status:healthy}恭喜你服务启动成功了4. 实际使用从PDF到Word的全流程现在服务跑起来了咱们来实际处理一个文档。我以一份扫描的实验报告为例带你走完全流程。4.1 准备Python脚本创建一个process_pdf.py文件import os import time from pathlib import Path from pdf2image import convert_from_path from chandra.model import InferenceManager from chandra.model.schema import BatchInputItem # 加载环境变量 from dotenv import load_dotenv load_dotenv(local.env) class PDFProcessor: def __init__(self, pdf_path, output_dir./output): self.pdf_path Path(pdf_path) self.output_dir Path(output_dir) self.output_dir.mkdir(exist_okTrue) # 初始化推理管理器 self.manager InferenceManager(methodvllm) def process(self): 处理PDF文件的主函数 print(f开始处理: {self.pdf_path.name}) # 第一步PDF转图片 print(转换PDF为图片...) start_time time.time() try: # 设置DPI为150平衡质量和速度 images convert_from_path( str(self.pdf_path), dpi150, fmtJPEG, thread_count4 ) except Exception as e: print(fPDF转换失败: {e}) return None print(f共{len(images)}页转换耗时: {time.time() - start_time:.1f}秒) # 第二步逐页OCR all_pages_html [] all_pages_markdown [] for i, image in enumerate(images): page_start time.time() print(f处理第 {i1}/{len(images)} 页...) try: # 创建批处理输入 batch_item BatchInputItem( imageimage, prompt_typeocr_layout # 使用布局识别提示 ) # 调用模型推理 results self.manager.generate([batch_item]) result results[0] # 保存结果 all_pages_html.append(result.html) all_pages_markdown.append(result.markdown) page_time time.time() - page_start print(f 第{i1}页完成耗时: {page_time:.1f}秒) print(f 识别字符数: {len(result.text)}) except Exception as e: print(f 第{i1}页处理失败: {e}) # 失败时添加空内容保持页码对齐 all_pages_html.append() all_pages_markdown.append() # 第三步保存结果 self._save_results(all_pages_html, all_pages_markdown) total_time time.time() - start_time print(f\n处理完成总耗时: {total_time:.1f}秒) print(f平均每页: {total_time/len(images):.1f}秒) return { html: all_pages_html, markdown: all_pages_markdown, pages: len(images) } def _save_results(self, html_pages, markdown_pages): 保存处理结果到文件 base_name self.pdf_path.stem # 保存HTML带布局信息 html_content self._wrap_html(html_pages) html_file self.output_dir / f{base_name}.html html_file.write_text(html_content, encodingutf-8) print(fHTML已保存: {html_file}) # 保存Markdown简洁版 md_content \n\n---\n\n.join(markdown_pages) md_file self.output_dir / f{base_name}.md md_file.write_text(md_content, encodingutf-8) print(fMarkdown已保存: {md_file}) # 保存原始文本 text_content \n\n.join([ page.replace(, lt;).replace(, gt;) for page in html_pages ]) text_file self.output_dir / f{base_name}.txt text_file.write_text(text_content, encodingutf-8) print(f文本已保存: {text_file}) # 生成处理报告 self._generate_report(base_name, len(html_pages)) def _wrap_html(self, html_pages): 将多页HTML包装成完整文档 css_style style body { font-family: Arial, sans-serif; margin: 40px; } .page { border: 1px solid #ddd; margin: 20px 0; padding: 20px; page-break-after: always; } .page-header { color: #666; font-size: 12px; margin-bottom: 10px; border-bottom: 1px solid #eee; padding-bottom: 5px; } table { border-collapse: collapse; margin: 10px 0; } table, th, td { border: 1px solid #ccc; padding: 8px; } math { font-family: Cambria Math, serif; } /style pages_html for i, page_html in enumerate(html_pages): if page_html.strip(): pages_html f div classpage div classpage-header第 {i1} 页/div {page_html} /div return f!DOCTYPE html html head meta charsetUTF-8 titleOCR结果 - {self.pdf_path.stem}/title {css_style} /head body h1OCR处理结果{self.pdf_path.name}/h1 p处理时间{time.strftime(%Y-%m-%d %H:%M:%S)}/p {pages_html} /body /html def _generate_report(self, base_name, page_count): 生成处理报告 report f# OCR处理报告 ## 文档信息 - 文件名{self.pdf_path.name} - 页数{page_count} - 处理时间{time.strftime(%Y-%m-%d %H:%M:%S)} - 输出格式HTML、Markdown、纯文本 ## 输出文件 1. {base_name}.html - 完整HTML文档保留布局信息 2. {base_name}.md - Markdown格式便于编辑 3. {base_name}.txt - 纯文本格式 ## 使用说明 1. HTML文件包含原始布局信息适合进一步处理 2. 表格、公式、复选框等元素已结构化 3. 每页内容用div classpage分隔 4. 坐标信息保存在data-bbox属性中 ## 注意事项 - 数学公式以LaTeX格式保存 - 表格结构已重建含合并单元格 - 复选框状态已识别 - 多语言内容已保留原格式 report_file self.output_dir / f{base_name}_report.md report_file.write_text(report, encodingutf-8) # 使用示例 if __name__ __main__: # 设置你的PDF文件路径 pdf_file 你的文档.pdf # 修改为实际路径 if os.path.exists(pdf_file): processor PDFProcessor(pdf_file) result processor.process() if result: print(f\n处理统计) print(f- 总页数{result[pages]}) print(f- 输出目录{processor.output_dir}) print(f- 查看HTML结果{processor.output_dir}/{Path(pdf_file).stem}.html) else: print(f文件不存在{pdf_file}) print(请将PDF文件放在当前目录或修改pdf_file变量为正确路径)4.2 运行脚本处理文档# 确保在虚拟环境中 source chandra-env/bin/activate # 运行处理脚本 python process_pdf.py脚本会把PDF转换成图片每页一张逐页发送给Chandra OCR处理保存三种格式的结果HTML、Markdown、纯文本生成处理报告4.3 从HTML到Word文档有了结构化的HTML转换成Word就简单了。我们需要安装一个额外的库pip install html2docx然后创建转换脚本html_to_docx.pyfrom docx import Document from docx.shared import Inches, Pt, RGBColor from docx.enum.text import WD_ALIGN_PARAGRAPH from bs4 import BeautifulSoup import re class HTMLToDOCX: def __init__(self): self.doc Document() # 设置默认字体 style self.doc.styles[Normal] font style.font font.name 宋体 font.size Pt(10.5) def convert(self, html_file, docx_file): 将HTML文件转换为DOCX print(f转换 {html_file} 到 {docx_file}) # 读取HTML with open(html_file, r, encodingutf-8) as f: html_content f.read() # 解析HTML soup BeautifulSoup(html_content, html.parser) # 处理每个页面 pages soup.find_all(class_page) for page_idx, page in enumerate(pages): if page_idx 0: # 添加分页符从第二页开始 self.doc.add_page_break() # 处理页面内容 self._process_elements(page) # 保存文档 self.doc.save(docx_file) print(f转换完成) def _process_elements(self, element): 处理HTML元素 for child in element.children: if child.name is None: # 文本节点 text str(child).strip() if text: self._add_text(text) elif child.name h1: self._add_heading(child.get_text(), level1) elif child.name h2: self._add_heading(child.get_text(), level2) elif child.name h3: self._add_heading(child.get_text(), level3) elif child.name p: self._add_paragraph(child) elif child.name table: self._add_table(child) elif child.name ul or child.name ol: self._add_list(child) elif child.name math: self._add_math(child.get_text()) elif child.name input: self._add_checkbox(child) elif hasattr(child, children): # 递归处理子元素 self._process_elements(child) def _add_heading(self, text, level1): 添加标题 p self.doc.add_heading(text, levellevel) # 设置标题样式 if level 1: p.alignment WD_ALIGN_PARAGRAPH.CENTER def _add_paragraph(self, p_element): 添加段落 p self.doc.add_paragraph() # 处理段落内的格式 for content in p_element.contents: if content.name is None: # 文本 run p.add_run(str(content)) elif content.name strong or content.name b: run p.add_run(content.get_text()) run.bold True elif content.name em or content.name i: run p.add_run(content.get_text()) run.italic True elif content.name math: # 数学公式特殊处理 run p.add_run(f {content.get_text()} ) run.italic True run.font.color.rgb RGBColor(0, 0, 255) # 蓝色 def _add_table(self, table_element): 添加表格 # 解析表格行 rows table_element.find_all(tr) if not rows: return # 创建Word表格 col_count max(len(row.find_all([td, th])) for row in rows) table self.doc.add_table(rowslen(rows), colscol_count) table.style Table Grid for i, row in enumerate(rows): cells row.find_all([td, th]) for j, cell in enumerate(cells): word_cell table.cell(i, j) # 处理合并单元格 colspan int(cell.get(colspan, 1)) rowspan int(cell.get(rowspan, 1)) if colspan 1 or rowspan 1: # Word中合并单元格比较复杂这里简化处理 word_cell.text cell.get_text().strip() # 设置单元格文本 word_cell.text cell.get_text().strip() # 如果是表头加粗 if cell.name th: for paragraph in word_cell.paragraphs: for run in paragraph.runs: run.bold True def _add_list(self, list_element): 添加列表 items list_element.find_all(li) for item in items: text item.get_text().strip() if list_element.name ul: # 无序列表 self.doc.add_paragraph(text, styleList Bullet) else: # 有序列表 self.doc.add_paragraph(text, styleList Number) def _add_math(self, latex_text): 添加数学公式简化版 p self.doc.add_paragraph() run p.add_run(f[公式] {latex_text}) run.italic True run.font.color.rgb RGBColor(0, 0, 255) def _add_checkbox(self, input_element): 添加复选框 checked input_element.get(checked) is not None text ✓ if checked else □ p self.doc.add_paragraph() run p.add_run(text) run.bold True def _add_text(self, text): 添加纯文本 if text.strip(): self.doc.add_paragraph(text.strip()) # 使用示例 if __name__ __main__: # 输入HTML文件和输出DOCX文件 html_file output/你的文档.html # 修改为实际路径 docx_file output/你的文档.docx # 修改为实际路径 converter HTMLToDOCX() converter.convert(html_file, docx_file)运行这个脚本就能把Chandra生成的HTML转换成可编辑的Word文档了。5. 实际效果展示与对比我找了几种典型的文档做了测试下面是实际效果对比。5.1 学术论文含数学公式原始扫描件包含复杂数学公式、多级标题、参考文献的PDF论文。传统OCR结果公式变成乱码$Emc^2$ → Emc2上下标丢失H₂O → H2O参考文献编号混乱Chandra结果公式保持LaTeX格式mathE mc^2/math上下标正确识别Hsub2/subO标题层级清晰h1、h2、h3标签正确参考文献列表保持编号5.2 实验报告含表格和手写原始扫描件手写填写的实验数据表有合并单元格。传统OCR结果表格结构完全破坏合并单元格被拆分成多个手写数字识别错误率高Chandra结果表格用table标签重建合并单元格正确标注colspan和rowspan手写数字识别准确率90%复选框状态正确识别checked属性5.3 财务报表复杂表格原始扫描件多级表头、合并单元格、数字对齐的财务报表。传统OCR结果表头关系丢失数字对齐混乱合计行识别错误Chandra结果表头层级关系保持数字保持右对齐合计行正确识别货币符号和千位分隔符保留5.4 处理速度实测在我的A10G GPU上测试文档类型页数总耗时平均每页输出质量纯文本文档10页12秒1.2秒优秀简单表格5页8秒1.6秒优秀复杂表格公式3页7秒2.3秒良好手写表格2页5秒2.5秒良好6. 使用技巧与注意事项在实际使用中我总结了一些经验技巧。6.1 优化识别效果调整DPI设置# 高质量但慢 images convert_from_path(pdf_path, dpi300) # 用于小字、复杂图表 # 平衡质量速度 images convert_from_path(pdf_path, dpi150) # 大多数文档适用 # 快速处理 images convert_from_path(pdf_path, dpi72) # 大字、简单文档预处理图像from PIL import Image, ImageEnhance def preprocess_image(image): 图像预处理 # 转为灰度 if image.mode ! L: image image.convert(L) # 增强对比度 enhancer ImageEnhance.Contrast(image) image enhancer.enhance(1.5) # 增强锐度 enhancer ImageEnhance.Sharpness(image) image enhancer.enhance(2.0) return image # 在处理前调用 processed_image preprocess_image(original_image)6.2 处理大文档的策略对于上百页的大文档直接处理可能会内存不足。可以分批处理def process_large_pdf(pdf_path, batch_size10): 分批处理大PDF all_images convert_from_path(pdf_path, dpi150) total_pages len(all_images) results [] for start in range(0, total_pages, batch_size): end min(start batch_size, total_pages) batch_images all_images[start:end] print(f处理批次 {start//batch_size 1}: 第{start1}-{end}页) batch_results [] for image in batch_images: batch_item BatchInputItem(imageimage, prompt_typeocr_layout) result manager.generate([batch_item])[0] batch_results.append(result) # 保存当前批次结果 save_batch_results(batch_results, start) results.extend(batch_results) # 清理内存 import gc gc.collect() return results6.3 常见问题解决问题1GPU内存不足解决方案调整vLLM参数 --max-model-len 2048 # 减少序列长度 --gpu-memory-utilization 0.80 # 降低内存使用率 --max-num-batched-tokens 1024 # 减少批处理大小问题2数学公式识别不准解决方案使用专门的数学提示 batch_item BatchInputItem( imageimage, prompt_typeocr_math # 专门用于数学文档 )问题3表格边框缺失导致识别错误解决方案预处理时增强线条 from PIL import ImageFilter image image.filter(ImageFilter.SHARPEN) # 锐化边缘问题4多语言混合文档解决方案指定语言提示如果知道主要语言 # 在prompt中提示语言 prompt OCR this document, it contains Chinese and English text.7. 总结经过这段时间的实测Chandra OCR确实给我带来了惊喜。它不仅仅是一个OCR工具更像是一个文档理解系统。把扫描件变成结构化HTML这个设计真的太实用了。7.1 核心优势总结真正的布局保留不是简单识别文字而是理解文档结构表格处理能力强合并单元格、复杂表头都能正确处理数学公式支持LaTeX格式输出方便后续编辑和渲染多格式输出HTML、Markdown、JSON满足不同需求开源可商用Apache 2.0协议商业项目也能用7.2 适用场景推荐根据我的测试经验Chandra特别适合学术文档数字化论文、教科书、试卷特别是含数学公式的企业文档处理合同、报告、财务报表需要保留表格结构的表单自动化调查问卷、申请表格需要识别复选框的多语言文档中英、日英等混合语言文档历史档案数字化老书、旧报纸等复杂版式文档7.3 还有改进空间当然Chandra也不是完美的硬件要求高需要大显存GPU对个人用户不太友好处理速度相比传统OCR还是慢一些手写识别虽然支持但复杂草书还有提升空间安装复杂度需要一定的技术背景才能部署成功7.4 最后建议如果你经常需要处理扫描文档特别是包含表格、公式、复杂布局的文档Chandra值得一试。虽然部署有点门槛但一旦跑起来它能节省大量手动调整的时间。对于大多数用户我建议先在小规模文档上测试效果根据文档类型调整预处理参数利用HTML的结构化输出开发自己的后处理流程关注官方更新模型还在快速迭代中文档数字化的未来一定是朝着保持原样、直接可用的方向发展。Chandra在这条路上迈出了重要的一步。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2566153.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!