vLLM-v0.17.1环境部署:Ubuntu/CentOS/WSL多系统适配指南
vLLM-v0.17.1环境部署Ubuntu/CentOS/WSL多系统适配指南1. vLLM框架简介vLLM是一个专为大型语言模型(LLM)设计的高性能推理和服务库以其出色的速度和易用性著称。这个项目最初由加州大学伯克利分校的天空计算实验室开发现在已经发展成为一个活跃的开源项目汇聚了来自学术界和工业界的众多贡献者。vLLM的核心优势在于其创新的内存管理技术PagedAttention这项技术能够高效地管理注意力机制中的键值对内存从而显著提升服务吞吐量。此外它还具备连续批处理请求的能力可以同时处理多个用户的查询请求。1.1 主要技术特性高效内存管理采用PagedAttention技术优化内存使用高性能执行利用CUDA/HIP图加速模型执行多种量化支持包括GPTQ、AWQ、INT4、INT8和FP8等多种量化方式优化内核集成了FlashAttention和FlashInfer等先进技术灵活的解码策略支持并行采样、束搜索等多种解码算法1.2 应用场景优势vLLM特别适合需要处理大量并发请求的LLM服务场景它的分布式推理能力支持张量并行和流水线并行可以轻松扩展到多GPU环境。同时它提供了与OpenAI兼容的API服务器方便现有应用的迁移和集成。2. 系统环境准备在开始安装vLLM之前我们需要确保系统满足基本要求。vLLM-v0.17.1支持多种操作系统和环境包括Ubuntu、CentOS和Windows Subsystem for Linux(WSL)。2.1 硬件要求GPU推荐使用NVIDIA GPU(如A100、V100、RTX系列)内存至少16GB RAM(具体取决于模型大小)存储建议50GB以上可用空间2.2 软件依赖所有系统都需要预先安装以下基础组件Python 3.8或更高版本pip包管理工具CUDA Toolkit 11.8或更高版本(NVIDIA GPU)cuDNN 8.6或更高版本(NVIDIA GPU)3. Ubuntu系统安装指南Ubuntu是最推荐运行vLLM的操作系统下面详细介绍在Ubuntu 20.04/22.04上的安装步骤。3.1 基础环境配置首先更新系统并安装必要的依赖sudo apt update sudo apt upgrade -y sudo apt install -y python3-pip python3-dev build-essential3.2 CUDA和cuDNN安装对于NVIDIA GPU用户需要安装CUDA Toolkitwget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub sudo add-apt-repository deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ / sudo apt-get update sudo apt-get -y install cuda安装完成后将CUDA添加到环境变量echo export PATH/usr/local/cuda/bin:$PATH ~/.bashrc echo export LD_LIBRARY_PATH/usr/local/cuda/lib64:$LD_LIBRARY_PATH ~/.bashrc source ~/.bashrc3.3 vLLM安装使用pip安装vLLM及其依赖pip install vllm0.17.1对于需要特定功能的用户可以选择安装额外组件pip install vllm[all]0.17.14. CentOS系统安装指南CentOS系统的安装过程与Ubuntu类似但有一些特定步骤需要注意。4.1 基础环境配置sudo yum update -y sudo yum install -y python3 python3-devel gcc-c make4.2 CUDA安装sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo sudo yum clean all sudo yum -y install nvidia-driver-latest-dkms cuda4.3 vLLM安装pip3 install vllm0.17.15. WSL环境安装指南Windows Subsystem for Linux(WSL)用户可以通过以下步骤安装vLLM。5.1 WSL环境准备首先确保已安装WSL 2和Ubuntu发行版wsl --install -d Ubuntu5.2 NVIDIA驱动安装在Windows主机上安装NVIDIA驱动然后在WSL中安装CUDAwget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/3bf863cc.pub sudo add-apt-repository deb https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/ / sudo apt-get update sudo apt-get -y install cuda5.3 vLLM安装pip install vllm0.17.16. 验证安装安装完成后可以通过以下方式验证vLLM是否正常工作。6.1 简单测试脚本创建一个Python脚本test_vllm.pyfrom vllm import LLM, SamplingParams # 定义采样参数 sampling_params SamplingParams(temperature0.8, top_p0.95) # 初始化LLM llm LLM(modelfacebook/opt-125m) # 生成文本 outputs llm.generate([Hello, my name is], sampling_params) # 打印结果 for output in outputs: print(output.outputs[0].text)运行脚本python test_vllm.py6.2 启动API服务器vLLM提供了OpenAI兼容的API服务器python -m vllm.entrypoints.api_server --model facebook/opt-125m然后可以通过curl测试APIcurl http://localhost:8000/v1/completions \ -H Content-Type: application/json \ -d { model: facebook/opt-125m, prompt: Hello, my name is, max_tokens: 7, temperature: 0 }7. 常见问题解决在安装和使用vLLM过程中可能会遇到一些问题这里列出一些常见问题及解决方法。7.1 CUDA版本不兼容如果遇到CUDA相关错误可以尝试指定CUDA版本export CUDA_HOME/usr/local/cuda-11.8 export LD_LIBRARY_PATH$CUDA_HOME/lib64:$LD_LIBRARY_PATH7.2 内存不足问题对于较小的GPU内存可以尝试使用量化模型llm LLM(modelfacebook/opt-125m, quantizationawq)7.3 模型下载问题如果模型下载缓慢可以预先下载模型到本地huggingface-cli download facebook/opt-125m --local-dir ./models/opt-125m然后在代码中指定本地路径llm LLM(model./models/opt-125m)8. 总结vLLM-v0.17.1是一个功能强大且高效的LLM推理和服务库支持多种操作系统和环境。本文详细介绍了在Ubuntu、CentOS和WSL系统上的安装步骤并提供了验证安装和常见问题解决方法。通过vLLM用户可以轻松部署高性能的LLM服务利用其先进的PagedAttention技术和连续批处理能力显著提升服务吞吐量和响应速度。无论是研究还是生产环境vLLM都是一个值得考虑的优秀选择。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2561808.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!