手把手教你搭建PaddleOCR开发环境:从CUDA配置到模型验证
1. 环境准备从零搭建PaddleOCR开发环境最近在做一个票据识别的项目需要用到OCR技术。对比了几种开源方案后发现PaddleOCR不仅识别准确率高而且对中文支持特别好。但在搭建环境时踩了不少坑特别是CUDA和cuDNN的版本兼容问题。下面我就把完整的搭建过程分享给大家包括我遇到的那些坑和解决方案。首先明确下硬件要求需要NVIDIA显卡建议GTX 1060以上因为我们要用GPU加速。如果你的电脑没有NVIDIA显卡也可以选择CPU版本但速度会慢很多。2. CUDA和cuDNN安装配置2.1 确定CUDA版本第一步要确定安装哪个版本的CUDA。打开命令提示符输入nvidia-smi这个命令会显示你的显卡驱动版本和最高支持的CUDA版本。比如我的输出显示CUDA Version: 12.2这意味着我可以安装12.2或更低的版本。这里有个坑要注意PaddlePaddle官方文档会指定支持的CUDA版本范围。比如当前PaddleOCR 2.6推荐使用CUDA 11.2-11.7。所以即使你的显卡支持更高版本也要选择PaddlePaddle支持的版本。2.2 安装CUDA Toolkit到NVIDIA官网下载对应版本的CUDA Toolkit。我选择的是CUDA 11.7下载地址是NVIDIA CUDA Toolkit Archive。安装时有几个关键点选择自定义安装而不是快速安装取消勾选Nsight VSE和Visual Studio Integration这两个组件经常导致安装失败安装完成后在命令提示符输入nvcc -V验证是否安装成功2.3 安装cuDNNcuDNN是NVIDIA提供的深度学习加速库。下载地址是cuDNN Archive注意要选择和CUDA版本匹配的cuDNN。安装步骤下载后解压zip文件将解压后的文件夹中的内容复制到CUDA安装目录默认是C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7添加以下环境变量到系统PATHC:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\bin C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\include C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\lib验证安装是否成功cd C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\extras\demo_suite .\bandwidthTest.exe .\deviceQuery.exe如果看到Result PASS就说明安装成功了。3. 创建Python虚拟环境3.1 安装Anaconda推荐使用Anaconda管理Python环境。从Anaconda官网下载安装包安装过程很简单一路下一步就行。3.2 创建专用环境打开Anaconda Prompt创建一个新的虚拟环境conda create -n paddle_env python3.8 conda activate paddle_env这里选择Python 3.8是因为它和PaddlePaddle的兼容性最好。3.3 安装PaddlePaddle GPU版本在PaddlePaddle官网查看推荐的版本组合。对于CUDA 11.7我安装的是python -m pip install paddlepaddle-gpu2.6.1.post117 -f https://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.html安装完成后验证import paddle paddle.utils.run_check()如果看到PaddlePaddle is installed successfully!就说明安装正确。4. 安装PaddleOCR4.1 下载PaddleOCR源码从GitHub克隆最新代码git clone https://github.com/PaddlePaddle/PaddleOCR.git cd PaddleOCR4.2 安装依赖使用清华镜像源加速安装pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt4.3 常见问题解决安装过程中可能会遇到以下问题Could not locate zlibwapi.dll解决方法从NVIDIA官网下载zlib包将zlibwapi.dll放到CUDA的bin目录zlibwapi.lib放到lib目录。Microsoft Visual C 14.0 is required解决方法安装Visual Studio 2019的C构建工具。5. 模型验证与测试5.1 下载预训练模型从PaddleOCR的GitHub仓库下载中文OCR模型文本检测模型ch_PP-OCRv3_det_infer文本识别模型ch_PP-OCRv3_rec_infer解压后放到PaddleOCR/inference_model/目录下。5.2 运行测试准备一张测试图片比如包含文字的截图运行python tools/infer/predict_system.py --image_dir./doc/imgs/11.jpg --det_model_dir./inference_model/ch_PP-OCRv3_det_infer/ --rec_model_dir./inference_model/ch_PP-OCRv3_rec_infer/如果看到控制台输出识别结果并且生成了./inference_results目录包含标注结果的图片就说明整个环境搭建成功了。5.3 性能优化建议如果显存不足可以减小batch sizepython tools/infer/predict_system.py --image_dir./doc/imgs/11.jpg --det_model_dir./inference_model/ch_PP-OCRv3_det_infer/ --rec_model_dir./inference_model/ch_PP-OCRv3_rec_infer/ --rec_batch_num8对于多张图片识别可以使用--image_dir指定文件夹路径如果需要更高的识别精度可以下载服务器版模型体积更大但更准确
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2472785.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!