用pytesseract 来批量把图片转成文字
1、安装好 pytesseract 包
2、下载安装OCR
https://download.csdn.net/download/m0_37622302/88348824 https://download.csdn.net/download/m0_37622302/88348824
https://download.csdn.net/download/m0_37622302/88348824
Index of /tesseract https://digi.bib.uni-mannheim.de/tesseract/
https://digi.bib.uni-mannheim.de/tesseract/
我是win10 64位,所以下载了 tesseract-ocr-w64-setup-v5.3.0.20221214.exe


安装软件目录在D:\Program Files\ocr\
下载 chi_sim.traineddata
放在 D:\Program Files\ocr\tessdata
3、编辑环境变量

TESSDATA_PREFIX
D:\Program Files\ocr\tessdata

4、测试环境一切就绪
tesseract -v 测 试一下,成功

5、pytesseract 编码
import os
import pytesseract
from PIL import Image
def jpg_to_text(input_folder, output_folder):
    # 遍历输入文件夹中的所有JPG图片
    for filename in os.listdir(input_folder):
        if filename.endswith(".png"):
            # 构造输入和输出文件的路径
            input_path = os.path.join(input_folder, filename)
            output_path = os.path.join(output_folder, f"{filename}.txt")
            # 打开图片文件并进行文字识别
            image = Image.open(input_path)
            text = pytesseract.image_to_string(image, 'chi_sim')
            # 将识别结果写入输出文件
            with open(output_path, "w") as file:
                file.write(text)
if __name__ == '__main__':
    jpg_to_text("F:/table/cc", "F:/table/aa")识别中文一定需要这个参数,不然会出现乱码

最后就可以见证奇迹了



















