Phi-3-vision-128k-instruct实操手册:vLLM量化部署(AWQ/GGUF)与性能对比实测
Phi-3-vision-128k-instruct实操手册vLLM量化部署AWQ/GGUF与性能对比实测1. 模型简介Phi-3-Vision-128K-Instruct 是一个轻量级的多模态模型支持图文对话功能。该模型基于高质量的数据集训练特别注重推理能力和视觉理解。作为Phi-3系列的一员它支持长达128K的上下文长度并经过严格的微调过程确保指令遵循的准确性和安全性。2. 环境准备2.1 系统要求操作系统Linux (推荐Ubuntu 20.04)GPUNVIDIA GPU (推荐显存16GB)Python3.8CUDA11.7vLLM0.3.02.2 安装依赖pip install vllm chainlit torch transformers3. 模型部署3.1 基础部署使用vLLM部署模型服务python -m vllm.entrypoints.api_server \ --model microsoft/Phi-3-vision-128k-instruct \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.93.2 量化部署选项3.2.1 AWQ量化部署python -m vllm.entrypoints.api_server \ --model microsoft/Phi-3-vision-128k-instruct \ --quantization awq \ --enforce-eager \ --gpu-memory-utilization 0.953.2.2 GGUF量化部署python -m vllm.entrypoints.api_server \ --model microsoft/Phi-3-vision-128k-instruct \ --quantization gguf \ --gguf-model-path /path/to/quantized_model.gguf \ --gpu-memory-utilization 0.954. 部署验证4.1 检查服务状态cat /root/workspace/llm.log成功部署后日志中应显示类似内容INFO: Started server process [1234] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:80004.2 Chainlit前端调用4.2.1 创建Chainlit应用创建app.py文件import chainlit as cl from openai import OpenAI client OpenAI(base_urlhttp://localhost:8000/v1, api_keyEMPTY) cl.on_message async def main(message: cl.Message): response client.chat.completions.create( modelPhi-3-vision-128k-instruct, messages[{role: user, content: message.content}], max_tokens1024 ) await cl.Message(contentresponse.choices[0].message.content).send()4.2.2 启动前端chainlit run app.py -w5. 性能对比测试5.1 测试环境GPUNVIDIA A100 40GB测试数据集100个图文问答样本温度参数0.7最大token数10245.2 量化方法对比量化方法显存占用推理速度(tokens/s)准确率原始模型15.2GB42.592.3%AWQ8.7GB38.291.1%GGUF6.4GB35.789.8%5.3 实际问答示例输入图片一张包含猫和狗的图片提问图片中是什么动物模型回答图片中有一只橘色的猫和一只棕色的狗。猫正坐在窗台上狗则躺在地板上。6. 使用建议6.1 量化选择建议显存有限推荐GGUF量化显存占用最低平衡性能推荐AWQ量化在性能和精度间取得较好平衡最高精度使用原始模型但需要更多显存6.2 优化技巧对于长文本输入适当降低--max-model-len参数批量处理请求时调整--max-num-batched-tokens监控GPU使用率调整--gpu-memory-utilization7. 总结本文详细介绍了Phi-3-vision-128k-instruct模型的vLLM部署方法包括AWQ和GGUF两种量化方式。通过实际测试对比了不同量化方法的性能表现并提供了Chainlit前端调用方案。该模型在多模态任务中表现出色量化后仍能保持较好的性能适合各种图文理解应用场景。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2419320.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!