python pytesseract 中文文字批量识别

news2026/5/24 11:33:20

用pytesseract 来批量把图片转成文字

1、安装好 pytesseract 包

2、下载安装OCR

https://download.csdn.net/download/m0_37622302/88348824https://download.csdn.net/download/m0_37622302/88348824

Index of /tesseracthttps://digi.bib.uni-mannheim.de/tesseract/

我是win10 64位，所以下载了 tesseract-ocr-w64-setup-v5.3.0.20221214.exe

安装软件目录在D:\Program Files\ocr\

下载 chi_sim.traineddata

放在 D:\Program Files\ocr\tessdata

3、编辑环境变量

TESSDATA_PREFIX

D:\Program Files\ocr\tessdata

4、测试环境一切就绪

tesseract -v 测试一下，成功

5、pytesseract 编码

import os
import pytesseract
from PIL import Image


def jpg_to_text(input_folder, output_folder):
    # 遍历输入文件夹中的所有JPG图片
    for filename in os.listdir(input_folder):
        if filename.endswith(".png"):
            # 构造输入和输出文件的路径
            input_path = os.path.join(input_folder, filename)
            output_path = os.path.join(output_folder, f"{filename}.txt")

            # 打开图片文件并进行文字识别
            image = Image.open(input_path)
            text = pytesseract.image_to_string(image, 'chi_sim')

            # 将识别结果写入输出文件
            with open(output_path, "w") as file:
                file.write(text)


if __name__ == '__main__':
    jpg_to_text("F:/table/cc", "F:/table/aa")

识别中文一定需要这个参数，不然会出现乱码