革命性文档处理工具text-extract-api:10分钟快速上手指南
革命性文档处理工具text-extract-api10分钟快速上手指南【免费下载链接】text-extract-apiDocument (PDF, Word, PPTX ...) extraction and parse API using state of the art modern OCRs Ollama supported models. Anonymize documents. Remove PII. Convert any document or picture to structured JSON or Markdown项目地址: https://gitcode.com/gh_mirrors/te/text-extract-apitext-extract-api是一款革命性的文档处理工具能够将PDF、Word、PPTX等各种文档或图片转换为结构化JSON或Markdown格式同时支持匿名化处理和PII个人身份信息移除。本文将为您提供一个快速上手指南帮助您在10分钟内掌握这个强大工具的基本使用方法。为什么选择text-extract-apitext-extract-api凭借其强大的功能和易用性成为文档处理领域的佼佼者。它采用最先进的OCR技术和Ollama支持的模型能够实现高精度的文档提取和解析。无论是处理发票、医疗报告还是其他复杂文档text-extract-api都能轻松应对。核心功能亮点多格式支持轻松处理PDF、Word、PPTX等多种文档格式以及图片高精度转换将文档转换为Markdown或JSON格式保留原始结构和内容PII移除自动识别并移除文档中的个人身份信息保护隐私本地处理无需依赖云服务所有处理都在本地完成确保数据安全多种OCR策略支持llama_vision、minicpm_v、remote和easyocr等多种OCR策略快速安装指南前提条件在开始之前请确保您的系统已安装以下软件DockerDocker ComposeOllama一键安装步骤克隆仓库git clone https://gitcode.com/gh_mirrors/te/text-extract-api cd text-extract-api使用Makefile快速设置make install make run对于GPU支持使用docker-compose -f docker-compose.gpu.yml -p text-extract-api-gpu up --build基本使用方法准备Ollama模型在使用text-extract-api之前需要先拉取所需的Ollama模型python client/cli.py llm_pull --model llama3.1 python client/cli.py llm_pull --model llama3.2-vision文档转换示例MRI报告转换为Markdown和JSON使用以下命令将MRI报告转换为Markdown和JSON格式python client/cli.py ocr_upload --file examples/example-mri.pdf --prompt_file examples/example-mri-2-json-prompt.txt发票转换并移除PII以下命令可以将发票转换为JSON格式并自动移除其中的个人身份信息python client/cli.py ocr_upload --file examples/example-invoice.pdf --prompt_file examples/example-invoice-remove-pii.txt查看转换结果转换完成后可以使用以下命令查看结果python client/cli.py result --task_id {your_task_id_from_upload_step}Web界面使用text-extract-api还提供了一个简单易用的Web界面。启动服务后在浏览器中访问http://localhost:8000即可打开。在Web界面中您可以上传PDF文件输入自定义提示选择OCR策略查看实时转换结果高级功能存储策略text-extract-api支持多种存储策略包括本地文件系统、Google Drive和Amazon S3。您可以在storage_profiles/目录下配置不同的存储策略。自定义OCR策略系统支持多种OCR策略您可以在text_extract_api/extract/strategies/目录下查看和自定义OCR策略。CLI工具text-extract-api提供了功能丰富的CLI工具您可以在client/cli.py文件中查看所有可用命令。常见问题解答如何提高转换 accuracy可以尝试不同的OCR策略如llama_vision或minicpm_v这些策略通常能提供更高的转换 accuracy。如何处理大型文档对于大型文档建议使用--ocr_cache参数启用缓存功能以提高后续处理速度。支持哪些语言text-extract-api支持多种语言您可以在OCR命令中使用--language参数指定如--language en,zh,ja。总结text-extract-api是一款功能强大、易于使用的文档处理工具能够帮助您快速将各种文档转换为结构化格式。通过本指南您已经了解了如何安装和基本使用text-extract-api。如需了解更多高级功能和配置选项请参考项目的官方文档。现在您已经准备好开始使用text-extract-api来处理您的文档了。祝您使用愉快【免费下载链接】text-extract-apiDocument (PDF, Word, PPTX ...) extraction and parse API using state of the art modern OCRs Ollama supported models. Anonymize documents. Remove PII. Convert any document or picture to structured JSON or Markdown项目地址: https://gitcode.com/gh_mirrors/te/text-extract-api创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2479849.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!