Phi-3.5-mini-instruct部署教程：WSL2环境下Windows本地运行vLLM+Chainlit全步骤

news2026/4/27 11:35:20

Phi-3.5-mini-instruct部署教程WSL2环境下Windows本地运行vLLMChainlit全步骤1. 环境准备与快速部署在开始之前请确保你的Windows系统已启用WSL2并安装了Ubuntu发行版。本教程将指导你完成从零开始的完整部署流程。1.1 系统要求Windows 10/11 64位系统已启用WSL2功能至少16GB内存推荐32GBNVIDIA显卡推荐RTX 3060及以上已安装最新版NVIDIA驱动1.2 基础环境配置首先打开WSL2终端执行以下命令更新系统并安装基础依赖sudo apt update sudo apt upgrade -y sudo apt install -y python3-pip python3-venv git curl wget安装CUDA工具包以CUDA 12.1为例wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda-repo-wsl-ubuntu-12-1-local_12.1.1-1_amd64.deb sudo dpkg -i cuda-repo-wsl-ubuntu-12-1-local_12.1.1-1_amd64.deb sudo cp /var/cuda-repo-wsl-ubuntu-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/ sudo apt-get update sudo apt-get -y install cuda2. 模型部署与配置2.1 创建Python虚拟环境为避免依赖冲突我们创建一个独立的Python环境python3 -m venv phi3-env source phi3-env/bin/activate2.2 安装vLLM及相关依赖vLLM是一个高效的大模型推理框架特别适合Phi-3这类模型pip install vllm0.3.3 torch2.1.2 transformers4.39.32.3 下载Phi-3.5-mini-instruct模型你可以直接从Hugging Face下载模型git lfs install git clone https://huggingface.co/microsoft/Phi-3-mini-128k-instruct或者使用镜像加速下载国内推荐git clone https://mirror.csdn.net/microsoft/Phi-3-mini-128k-instruct3. 启动模型服务3.1 使用vLLM启动API服务创建一个启动脚本start_server.pyfrom vllm import LLM, SamplingParams llm LLM( modelPhi-3-mini-128k-instruct, tensor_parallel_size1, gpu_memory_utilization0.9 ) sampling_params SamplingParams(temperature0.7, top_p0.9, max_tokens512) def generate(prompt): outputs llm.generate(prompt, sampling_params) return outputs[0].outputs[0].text if __name__ __main__: from fastapi import FastAPI from fastapi.middleware.cors import CORSMiddleware app FastAPI() app.add_middleware( CORSMiddleware, allow_origins[*], allow_methods[*], allow_headers[*], ) app.post(/generate) async def generate_text(prompt: str): return {response: generate(prompt)} import uvicorn uvicorn.run(app, host0.0.0.0, port8000)启动服务python start_server.py llm.log 21 3.2 验证服务是否正常运行检查日志文件确认服务状态tail -f llm.log看到类似以下输出表示服务已就绪INFO: Started server process [1234] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:80004. 使用Chainlit构建交互界面4.1 安装Chainlitpip install chainlit4.2 创建Chainlit应用新建app.py文件import chainlit as cl import requests cl.on_message async def main(message: cl.Message): response requests.post( http://localhost:8000/generate, json{prompt: message.content} ).json() await cl.Message(contentresponse[response]).send() cl.on_chat_start async def start(): await cl.Message(contentPhi-3.5-mini-instruct已就绪请输入您的问题).send()4.3 启动Chainlit界面chainlit run app.py -w启动后会自动打开浏览器窗口显示交互界面。你可以直接在输入框中提问模型会实时生成回答。5. 常见问题解决5.1 内存不足问题如果遇到内存不足错误可以尝试减少gpu_memory_utilization参数值如改为0.7使用量化版本的模型增加系统交换空间sudo fallocate -l 8G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile5.2 模型加载缓慢模型首次加载可能需要较长时间10-30分钟这是正常现象。后续启动会快很多。5.3 API调用超时如果Chainlit无法连接到vLLM服务请检查vLLM服务是否正常运行防火墙是否阻止了8000端口服务地址是否正确应为http://localhost:80006. 总结通过本教程你已经成功在WSL2环境下部署了Phi-3.5-mini-instruct模型并使用vLLM和Chainlit构建了完整的本地运行环境。这套方案具有以下优势高效推理vLLM提供了优化的推理性能交互友好Chainlit提供了简洁的聊天界面本地运行所有数据都在本地处理保障隐私安全灵活扩展可以轻松集成到其他应用中你可以进一步探索尝试不同的采样参数temperature、top_p等将模型集成到你的应用程序中测试模型在不同任务上的表现获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2541196.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！