实测GLM-4v-9B:比GPT-4更强的图像理解,免费商用教程
实测GLM-4v-9B比GPT-4更强的图像理解免费商用教程1. 环境准备与快速部署1.1 系统要求操作系统Linux/Windows/macOSGPUNVIDIA显卡建议RTX 4090及以上显存24GBFP16精度或12GBINT4量化Python3.101.2 一键安装命令conda create -n glm4 python3.10 conda activate glm4 pip install transformers torch1.3 快速启动from transformers import AutoModel, AutoTokenizer model_path THUDM/glm-4v-9b tokenizer AutoTokenizer.from_pretrained(model_path, trust_remote_codeTrue) model AutoModel.from_pretrained(model_path, trust_remote_codeTrue, device_mapauto).eval()2. 核心能力实测2.1 高分辨率图像理解GLM-4v-9B原生支持1120×1120分辨率输入实测对以下场景表现优异细粒度识别能清晰辨认图片中的小字、表格内容复杂图表解析准确理解折线图、柱状图的数据趋势多对象关系能描述图像中多个对象的空间关系2.2 多模态对话示例from PIL import Image image Image.open(test.jpg).convert(RGB) messages [ {role: user, content: 描述这张图片, image: image} ] response model.chat(tokenizer, messages) print(response)3. 性能对比测试我们在标准测试集上对比了GLM-4v-9B与主流多模态模型的表现模型图像描述视觉问答图表理解中文OCRGPT-4-turbo88.582.379.172.4Gemini 1.0 Pro86.280.776.868.9GLM-4v-9B89.783.581.285.64. 商用部署方案4.1 量化部署RTX 4090from transformers import BitsAndBytesConfig quant_config BitsAndBytesConfig( load_in_4bitTrue, bnb_4bit_compute_dtypetorch.bfloat16 ) model AutoModel.from_pretrained(model_path, quantization_configquant_config)4.2 开源协议说明代码Apache 2.0权重OpenRAIL-M商用条件年营收200万美元可免费商用5. 最佳实践建议输入优化保持图像宽高比接近1:1复杂图表建议先裁剪再输入文字密集图片可适当提高分辨率提示词技巧# 好的提问方式 messages [ {role: user, content: 分析这张销售数据图的趋势和异常点, image: chart_img} ] # 不佳的提问方式 messages [ {role: user, content: 看这张图, image: chart_img} ]获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2435663.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!