VLLM部署
一、安装服务器 h2001、系统Ubuntu 22.04.52、驱动英伟达cuda 12.43、容器docker ce26.x4、nvidia-container-toolkit操作命令查是否安装dpkg -l | grep nvidia-container-toolkit查版本nvidia-container-cli --version端到端测试docker run --rm --gpus all nvidia/cuda:12.4-base-ubuntu22.04 nvidia-smi检查 Docker 配置cat /etc/docker/daemon.json5、链接国外的docke镜像register Mirrorsvim /etc/docker/daemon.json{registry-mirrors: [https://docker.211678.top,https://docker.1panel.live,https://hub.rat.dev,https://docker.m.daocloud.io,https://do.nark.eu.org,https://dockerpull.com,https://dockerproxy.cn,https://docker.awsl9527.cn]}二、下面安装VLLM可以参考https://github.com/vllm-project/vllmmkdir -p /home/hynx/models/Qwen2.5-7B-Instructhynxhynx:~$ cd /home/hynx/models/Qwen2.5-7B-Instructhynxhynx:~$ python3 -c from modelscope import snapshot_download; snapshot_download(Qwen/Qwen2.5-7B-Instruct, local_dir.)#docker run -d --name vllm_qwen --runtime nvidia --gpus all \docker run -d --name vllm_qwen --runtime nvidia --gpus all -p 8089:8089 -v /home/hynx/models/Qwen2.5-7B-Instruct:/app/model vllm/vllm-openai:latest --model /app/model --host 0.0.0.0 --port 8089 --dtype auto --max-model-len 40961. qwen3.5的合适大模型9B,# 创建一个清晰明确的目录mkdir -p /home/hynx/models/Qwen3.5-9B# 进入该目录cd /home/hynx/models/Qwen3.5-9B# 下载模型python3 -c from modelscope import snapshot_download; snapshot_download(Qwen/Qwen3.5-9B, local_dir.)#利用docker 运行大模型hynxhynx:~$ docker run -d --name vllm_qwen3.59 --runtime nvidia --gpus all -p 8089:8089 -v /home/hynx/models/Qwen3.5-9B:/app/model vllm/vllm-openai:latest --model /app/model --host 0.0.0.0 --port 8089 --dtype auto --max-model-len 4096# 验证大模型效果curl http://localhost:8089/v1/completions \ -H Content-Type: application/json \ -d { model: /app/model, prompt: Hello, how are you?, max_tokens: 20 }2.qwen3.5:122B3.qwen3:8B embedding4. qwen3: 8B rerank5. minerU 模型三、
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2432526.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!