手把手教你用GLM-4V-9B:上传图片就能对话的AI模型部署实战
手把手教你用GLM-4V-9B上传图片就能对话的AI模型部署实战1. 环境准备与快速部署1.1 系统要求操作系统Linux (推荐Ubuntu 20.04)GPUNVIDIA显卡显存≥24GB (如RTX 4090)CUDA11.7Python3.81.2 一键安装依赖pip install torch torchvision transformers1.3 快速启动模型from transformers import AutoModelForCausalLM, AutoTokenizer from PIL import Image # 加载模型和分词器 model AutoModelForCausalLM.from_pretrained( THUDM/glm-4v-9b, trust_remote_codeTrue, torch_dtypetorch.bfloat16, device_mapauto ) tokenizer AutoTokenizer.from_pretrained(THUDM/glm-4v-9b, trust_remote_codeTrue) # 准备图片和问题 image Image.open(your_image.jpg).convert(RGB) query 描述这张图片的内容 # 构建对话 inputs tokenizer.apply_chat_template( [{role: user, image: image, content: query}], add_generation_promptTrue, return_tensorspt ).to(model.device) # 生成回答 outputs model.generate(inputs, max_length1000) print(tokenizer.decode(outputs[0]))2. 核心功能演示2.1 图片内容理解# 上传图片并提问 image Image.open(food.jpg) response model.chat(tokenizer, 这张图片中的食物有哪些?, imageimage) print(response)典型输出图片中有一盘意大利面配有色泽鲜艳的番茄酱汁旁边摆放着新鲜的罗勒叶。餐盘右侧可以看到一块烤面包整体摆盘精致。2.2 多轮对话# 第一轮对话 response, history model.chat(tokenizer, 这张X光片显示什么?, imagexray_image) # 基于历史继续提问 response, history model.chat(tokenizer, 有哪些需要注意的异常?, historyhistory)3. 高级配置技巧3.1 分辨率优化GLM-4V-9B原生支持1120×1120高分辨率输入# 高清图片处理 high_res_image image.resize((1120, 1120)) inputs tokenizer.apply_chat_template( [{role: user, image: high_res_image, content: 请详细描述图片}], add_generation_promptTrue )3.2 批量处理# 多图批量处理 images [Image.open(fimage_{i}.jpg) for i in range(3)] queries [描述第一张图, 第二张图的主色调, 比较三张图的共同点] inputs tokenizer.apply_chat_template( [{role: user, image: img, content: q} for img, q in zip(images, queries)], add_generation_promptTrue, paddingTrue, return_tensorspt )4. 常见问题解决4.1 显存不足问题解决方案使用INT4量化model AutoModelForCausalLM.from_pretrained( THUDM/glm-4v-9b, load_in_4bitTrue, trust_remote_codeTrue )启用梯度检查点model.gradient_checkpointing_enable()4.2 图片处理异常确保图片格式正确from io import BytesIO # 处理字节流图片 image_bytes requests.get(image_url).content image Image.open(BytesIO(image_bytes)).convert(RGB)获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2461989.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!