Qwen3-4B-Thinking部署教程：Ubuntu/CentOS系统vLLM环境适配

news2026/5/16 7:28:52

Qwen3-4B-Thinking部署教程Ubuntu/CentOS系统vLLM环境适配1. 模型简介Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill是一个基于54.4百万个由Gemini 2.5 Flash生成的token训练而成的文本生成模型。该模型旨在提炼Gemini-2.5 Flash的行为模式、推理轨迹、输出风格以及核心知识。模型训练数据覆盖多个专业领域领域提示数量学术645金融1048健康1720法律1193营销1350编程1930SEO775科学1435目标9912. 环境准备2.1 系统要求操作系统Ubuntu 20.04/22.04或CentOS 7/8硬件配置GPUNVIDIA显卡推荐RTX 3090及以上显存至少16GB内存32GB及以上存储50GB可用空间2.2 依赖安装# 安装基础依赖 sudo apt-get update sudo apt-get install -y python3-pip python3-dev git # 安装CUDA工具包以Ubuntu为例 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub sudo add-apt-repository deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ / sudo apt-get update sudo apt-get -y install cuda3. 模型部署3.1 下载模型git clone https://github.com/QwenLM/Qwen3-4B-Thinking.git cd Qwen3-4B-Thinking3.2 安装vLLMpip install vllm pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu1183.3 启动模型服务python -m vllm.entrypoints.api_server \ --model Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.93.4 验证服务状态cat /root/workspace/llm.log如果看到类似以下输出表示服务已成功启动INFO: Started server process [1234] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRLC to quit)4. 前端调用4.1 安装Chainlitpip install chainlit4.2 创建调用脚本新建一个app.py文件内容如下import chainlit as cl import requests cl.on_message async def main(message: cl.Message): response requests.post( http://localhost:8000/generate, json{ prompt: message.content, max_tokens: 1024, temperature: 0.7 } ) await cl.Message(contentresponse.json()[text]).send()4.3 启动前端界面chainlit run app.py访问http://localhost:8000即可开始与模型交互。5. 常见问题解决5.1 模型加载失败如果遇到模型加载失败的问题可以尝试检查CUDA版本是否兼容确认显存是否足够降低--gpu-memory-utilization参数值5.2 响应速度慢尝试减少max_tokens参数值检查GPU利用率是否达到上限考虑升级硬件配置5.3 前端无法连接确保模型服务已正确启动检查防火墙设置确保端口8000开放验证Chainlit和vLLM服务是否在同一网络环境6. 总结通过本教程我们完成了Qwen3-4B-Thinking模型在Ubuntu/CentOS系统上的vLLM环境部署并实现了通过Chainlit前端进行交互的功能。这个模型在多个专业领域表现出色能够生成高质量的文本内容。部署过程中需要注意硬件配置、依赖版本以及服务端口等关键因素。如果遇到问题可以参考常见问题解决部分或联系技术支持。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2543891.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！