qwen3.6-27B-FP8部署

news2026/5/4 2:05:54

目录路径按需调整当前根目录/1、环境安装cd /conda create -n vllm-env python3.10conda activate vllm-envpython3 -m venv vllm-envsource vllm-env/bin/activatepip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121pip install vllm2、验证import vllmprint(vllm.__version__)3、魔塔社区下载pip install modelscopemkdir Qwen3.6-27B-FP8modelscope download --model Qwen/Qwen3.6-27B-FP84、模型启动脚本#!/bin/bashexport CUDA_VISIBLE_DEVICES0,1# Qwen3.6-27B-FP8 双卡自动部署脚本# 功能激活指定虚拟环境自动停止旧服务并使用双卡启动 vLLM# --- 配置区域 ---VENV_PATH/vllm-envMODEL_PATH/root/ai-models/Qwen/Qwen3___6-27B-FP8 # 本地模型绝对路径PORT8000HOST0.0.0.0TP_SIZE2 # 张量并行度双卡设为 2MAX_MODEL_LEN262144 # 上下文长度根据显存调整 (32k/64k/128k)GPU_MEM_UTIL0.9 # 显存利用率LOG_FILEvllm_server.log# --- 函数定义 ---# 1. 激活虚拟环境#activate_venv() {# if [ -f ${VENV_PATH}/bin/activate ]; then# echo 正在激活虚拟环境: ${VENV_PATH}# source ${VENV_PATH}/bin/activate#else# echo 错误: 虚拟环境路径不存在: ${VENV_PATH}/bin/activate# exit 1#fi#}# 2. 停止现有服务stop_existing_service() {echo 检查端口 ${PORT} 是否被占用...PID$(lsof -ti:${PORT} 2/dev/null)if [ -n $PID ]; thenecho 发现占用进程 PID: $PID正在终止...kill -9 $PIDsleep 2echo 旧进程已终止。elseecho 端口 ${PORT} 空闲无需停止旧进程。fi}# 3. 检查环境check_environment() {if ! command -v vllm /dev/null; thenecho 错误: vLLM 未安装。请确保在虚拟环境中已执行: pip install vllmexit 1fiif [ ! -d ${MODEL_PATH} ]; thenecho 错误: 模型路径不存在: ${MODEL_PATH}exit 1fiGPU_COUNT$(nvidia-smi --query-gpuname --formatcsv,noheader 2/dev/null | wc -l)if [ $GPU_COUNT -lt 2 ]; thenecho 警告: 检测到少于 2 张 GPU但配置为 TP_SIZE2。请确认硬件连接。fi}# 4. 启动服务start_service() {echo 正在启动 Qwen3.6-27B-FP8 (TP${TP_SIZE}, Context${MAX_MODEL_LEN})...echo 日志将输出到 ${LOG_FILE}nohup vllm serve ${MODEL_PATH} \--host ${HOST} \--port ${PORT} \--tensor-parallel-size ${TP_SIZE} \--max-model-len ${MAX_MODEL_LEN} \--gpu-memory-utilization ${GPU_MEM_UTIL} \--dtype auto \--served-model-name qwen3-local \ ${LOG_FILE} 21 NEW_PID$!echo 服务已在后台启动PID: ${NEW_PID}echo 等待服务初始化...for i in {1..30}; doif curl -s http://localhost:${PORT}/health /dev/null 21; thenecho 服务启动成功访问地址: http://${HOST}:${PORT}/v1return 0fisleep 2doneecho 警告: 服务启动超时请查看 ${LOG_FILE} 排查错误。return 1}# --- 主执行流程 ---echo echo Qwen3.6-27B-FP8 双卡部署助手echo #activate_venvcheck_environmentstop_existing_servicestart_serviceecho echo 部署完成。使用 tail -f ${LOG_FILE} 查看实时日志echo

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2580171.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！