SGLang部署Qwen3.5-27B量化版及评测
随着人工智能技术的快速发展大语言模型的本地化部署成为企业和开发者的一项重要需求。Qwen3.5-27B-GPTQ-Int4 作为阿里Qwen3.5系列的重要模型在保持高性能的同时通过 INT4 量化大幅降低了部署成本使其能够在消费级显卡上流畅运行。本文将详细介绍如何在 Ubuntu 22.04 环境下使用 SGLang 框架部署 Qwen3.5-27b-GPTQ-Int4 模型并进行全面的性能测试评测。我们将使用 RTX 5880 48G 显卡作为硬件平台这是一款具备强大计算能力的专业级显卡非常适合大模型的本地部署。环境准备硬件要求显卡: NVIDIA RTX 5880 48GB 显存CPU: 16 核以上 Intel Xeon 或 AMD EPYC 处理器内存: 64GB DDR4 系统内存存储: 1TB NVMe SSD用于模型存储和缓存网络: 千兆以太网用于模型下载软件环境操作系统: Ubuntu 22.04 LTSCUDA 版本: 12.4 或更高版本Python 版本: 3.10 或 3.11SGLang 版本: 0.5.9PyTorch 版本: 2.5.0 或更高版本环境检查在开始部署之前我们需要先检查系统环境是否满足要求# 检查Python版本 python3 --version # 检查CUDA版本 nvcc --version # 检查显卡信息 nvidia-smi部署步骤1. 系统环境配置首先我们需要配置系统环境安装必要的系统依赖# 更新系统包 sudo apt update sudo apt upgrade -y # 安装基础依赖 sudo apt install -y build-essential git wget curl # 安装Python环境 sudo apt install -y python3 python3-pip python3-venv # 安装CUDA驱动 sudo apt install -y nvidia-driver-570 nvidia-cuda-toolkit2. 创建虚拟环境为了避免依赖冲突我们创建一个独立的 Python 虚拟环境# 创建虚拟环境 python3 -m venv sglang-env # 激活虚拟环境 source sglang-env/bin/activate # 升级pip pip install --upgrade pip3. 安装 SGLang 框架pip install githttps://github.com/sgl-project/sglang.git#subdirectorypythoneggsglang[all]4. 下载模型我们可以从ModelScope下载预量化的 Qwen3.5-27b-GPTQ-Int4 模型# 安装modelscope pip install modelscope # 下载模型 modelscope download --model Qwen/Qwen3.5-27b-GPTQ-Int4 --local_dir ./Qwen/Qwen3.5-27b-GPTQ-Int45. 部署模型服务sglang serve \ --model-path ./Qwen/Qwen3.5-27b-GPTQ-Int4 \ --port 8000 \ --tp-size 1 \ --mem-fraction-static 0.8 \ --context-length 32678 \ --served-model-name Qwen3.5-27B \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder \ --quantization moe_wna16性能测试评测代码测试先使用一段Python代码测试上面部署的Qwen3.5-27B服务import requests import json import time url http://localhost:8000/v1/chat/completions # 构造一个典型的长文本请求 payload { model: Qwen3.5-27B, messages: [ {role: user, content: 请写一篇关于人工智能发展的详细报告字数要求在1000字左右。 * 5} ], temperature: 0.7, max_tokens: 512, stream: False # 非流式以便计算总时间 } def test_single_request(): start_time time.time() response requests.post(url, jsonpayload) end_time time.time() if response.status_code 200: data response.json() usage data.get(usage, {}) total_tokens usage.get(total_tokens, 0) output_tokens usage.get(completion_tokens, 0) duration end_time - start_time speed output_tokens / duration if duration 0 else 0 print(f状态码: {response.status_code}) print(f总耗时: {duration:.2f} 秒) print(f输出 Tokens: {output_tokens}) print(f生成速度: {speed:.2f} tokens/s) print(f首字延迟估算 (需流式测试更准): N/A) else: print(f请求失败: {response.text}) if __name__ __main__: print(开始单次请求延迟测试...) test_single_request()测试结果每秒 31.37 tokens。使用SGLang自带测试工具也可以使用SGLang自带的性能测试工具对上面部署的模型服务进行测试。HF_HUB_OFFLINE1 python -m sglang.bench_serving \ --backend sglang \ --served-model-name Qwen3.5-27B \ --tokenizer ./Qwen/Qwen3.5-27b-GPTQ-Int4 \ --port 8000 \ --dataset-name random-ids \ --num-prompts 500 \ --random-input-len 512 \ --random-output-len 512 \ --request-rate 10测试结果测试过程中显存使用情况
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2424116.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!