GLM-OCR入门教程：3步完成Ubuntu20.04环境部署与首次调用

news2026/3/17 2:30:41

GLM-OCR入门教程3步完成Ubuntu20.04环境部署与首次调用你是不是也遇到过这种情况手头有一堆图片里面全是文字信息比如扫描的文档、截图的聊天记录或者拍下来的白板内容。一个个手动敲键盘录入太费时间了。用一些在线工具又担心隐私问题。今天要聊的GLM-OCR就是一个能帮你解决这个烦恼的本地化工具。简单来说它就是一个能看懂图片里文字的AI模型。你给它一张图它就能把里面的文字识别出来变成可编辑的文本。这篇教程就是专门给使用Ubuntu 20.04系统的朋友准备的。我会带你走一遍在星图GPU平台上从找到镜像到成功调用GLM-OCR的全过程。整个过程就三步跟着做半小时内你就能让这个AI助手跑起来并处理你的第一张图片。1. 第一步在星图平台找到并启动GLM-OCR万事开头难但这一步其实很简单。我们的目标是在星图GPU平台上找到一个已经配置好GLM-OCR的“环境包”然后把它运行起来。1.1 找到正确的镜像首先你需要登录星图GPU平台。进入控制台后找到“镜像”或者“应用市场”相关的入口。在搜索框里直接输入“GLM-OCR”进行搜索。你会看到一系列相关的镜像结果。这里有个小技巧注意看镜像的标签或描述优先选择那些明确标注了“最新版”、“Ubuntu 20.04”兼容并且下载量或评分较高的镜像。这能帮你避开一些潜在的兼容性问题。选好之后点击“部署”或“创建实例”。1.2 配置你的计算实例接下来平台会让你配置这个实例的参数。对于GLM-OCR这样的OCR任务它主要吃的是CPU和内存对GPU的要求反而不像图像生成模型那么高。不过为了获得更快的处理速度尤其是如果你打算批量处理图片我建议按以下配置选择GPU规格选择一款具有至少8GB显存的GPU型号例如NVIDIA T4或同等级别就完全足够了。如果没有GPU纯CPU也能运行只是速度会慢一些。系统盘建议分配50GB以上的空间给系统和后续可能存放的图片留足余地。公网IP这一步非常重要。务必勾选“分配公网IP”选项这样你才能从你自己的电脑上访问到这台云服务器里的OCR服务。配置完成后点击确认平台就会开始为你创建这个带有GLM-OCR环境的云服务器了。这个过程通常需要几分钟你可以先去喝杯水。2. 第二步连接服务器并启动OCR服务当实例状态显示为“运行中”时我们的“AI盒子”就准备好了。现在我们需要进去把它启动。2.1 登录你的云服务器在实例的管理页面找到你刚创建的那台服务器你会看到它的公网IP地址。打开你电脑上的终端如果是Windows可以使用PuTTY或WSL用SSH命令连接它。连接命令通常是这样的ssh root你的公网IP地址系统会提示你输入密码这个密码通常在实例创建时由平台提供或者是你自己设置的。输入密码后你就进入了Ubuntu 20.04系统的命令行界面。2.2 启动GLM-OCR服务成功登录后GLM-OCR的相关软件和依赖其实已经由镜像预装好了。我们只需要找到它并启动。首先我们可以检查一下服务是否已经存在。一个常见的方法是使用systemctl命令查看相关服务或者直接去常见的安装目录看看。你可以尝试输入cd /usr/local/glm-ocr # 这是一个可能的安装路径具体请参考你所用镜像的说明文档 ls -la如果看到里面有start.sh、server.py之类的启动脚本或文件那就找对地方了。启动服务通常就是运行一个命令。假设启动脚本是start.sh那么bash start.sh或者如果是Python脚本python server.py运行命令后终端会开始滚动日志。当你看到类似“Server started on port 8000”或者“Running on http://0.0.0.0:8000”这样的信息时就说明OCR服务已经成功在后台启动了。关键点请记下日志里显示的端口号比如这里的8000。我们下一步会用到它。3. 第三步编写你的第一个识别程序服务在云端跑起来了现在该我们的主角——图片——上场了。我们需要写一个简单的小程序从我们自己的电脑上把图片“送”到云端的OCR服务再把识别结果“拿”回来。3.1 准备一个Python测试脚本在你的本地电脑上不是云服务器新建一个Python文件比如叫做test_ocr.py。把下面的代码复制进去。import requests import base64 import json # 1. 配置参数这里换成你自己的信息 SERVER_URL http://你的公网IP地址:8000 # 端口号要换成你第二步记下的那个 IMAGE_PATH ./test_image.jpg # 这里放你要识别的图片路径 # 2. 读取图片并编码 def image_to_base64(image_path): with open(image_path, rb) as image_file: encoded_string base64.b64encode(image_file.read()).decode(utf-8) return encoded_string # 3. 构建请求数据 def build_payload(image_base64): payload { image: image_base64, # 以下是一些可选参数可以让识别更精准 detect_direction: True, # 是否检测文字方向 language_type: CHN_ENG, # 语言类型中英文混合 } return payload # 4. 发送请求并获取结果 def ocr_request(url, payload): headers {Content-Type: application/json} try: response requests.post(url, datajson.dumps(payload), headersheaders, timeout30) response.raise_for_status() # 检查请求是否成功 return response.json() except requests.exceptions.RequestException as e: print(f请求出错: {e}) return None # 5. 主程序 if __name__ __main__: # 读取图片 print(f正在读取图片: {IMAGE_PATH}) img_base64 image_to_base64(IMAGE_PATH) # 构建请求 data build_payload(img_base64) # 发送请求 print(正在向OCR服务发送请求...) result ocr_request(f{SERVER_URL}/ocr, data) # 注意这里的端点路径可能是 /ocr, /predict, 请参考镜像文档 # 处理结果 if result and text in result: print(\n 识别成功 ) print(识别出的文本内容) print(result[text]) elif result: print(\n识别完成但返回格式可能不同:) print(json.dumps(result, indent2, ensure_asciiFalse)) else: print(\n识别失败请检查服务状态和网络连接。)3.2 运行脚本并查看结果在运行脚本前确保三件事脚本中的SERVER_URL已经替换成了你云服务器的公网IP和正确的端口号。IMAGE_PATH指向的图片比如test_image.jpg确实存在并且最好是包含清晰文字的图片比如一张书页的截图。你的本地电脑可以访问云服务器的公网IP通常没问题。然后在终端里运行它python test_ocr.py如果一切顺利几秒钟后你就能在终端里看到图片中的文字被清晰地打印出来了。恭喜你你已经完成了GLM-OCR的首次调用4. 常见问题与解决方法第一次尝试难免会遇到一些小波折。这里我列举几个最常见的问题和解决办法。4.1 连接失败无法访问服务症状运行Python脚本时提示“连接超时”或“拒绝连接”。检查清单IP和端口再仔细核对一遍SERVER_URL里的IP地址和端口号一个数字都不能错。服务器状态回到星图平台控制台确认你的云服务器实例是“运行中”状态。安全组/防火墙这是最容易被忽略的一点。你需要到云服务器的安全组规则里添加一条“入方向”规则允许你本地电脑的IP地址或者直接允许所有IP0.0.0.0/0访问你使用的那个端口比如8000。通常协议类型选TCP。4.2 服务启动报错症状在服务器上执行启动命令后报错退出比如提示“端口被占用”或“模块未找到”。解决办法端口占用如果默认端口如8000被占用可以在启动命令中指定另一个端口例如python server.py --port 8080并记得在Python脚本中也修改端口号。依赖缺失虽然镜像已预装但极端情况下可能缺失。可以尝试根据错误提示使用pip install安装缺失的Python包。例如pip install opencv-python-headless。4.3 识别结果不理想症状文字能识别出来但错别字多或者排版混乱。优化建议提供更清晰的图片确保图片光线均匀、文字清晰、没有严重倾斜。调整请求参数回头看看Python脚本里build_payload函数中的可选参数。比如对于竖排文字可以试试设置“detect_direction”: True。如果主要是英文可以把“language_type”改成“ENG”。预处理图片在发送前可以先用简单的图像处理库如PIL对图片进行灰度化、二值化或降噪处理有时能显著提升识别精度。整个流程走下来感觉GLM-OCR的部署确实比想象中要简单。核心就是利用星图平台提供的预置镜像省去了自己搭建环境、解决依赖冲突这些最头疼的步骤。实际识别效果对于清晰的印刷体文字来说相当可靠作为自动化录入的第一步工具完全够用。如果你在尝试过程中遇到了上面没提到的问题或者有更复杂的应用场景想探讨比如批量处理、特定格式文档转换那可能需要更深入地研究一下它的高级API和配置。不过对于入门和大多数日常需求来说这三步已经能帮你打开OCR自动化的大门了。下次再遇到图片转文字的需求就让你的云端AI助手来帮忙吧。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2417948.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！