Ubuntu 单机多卡部署脚本: vLLM + DeepSeek 70B

news2025/5/10 0:52:33


# 部署脚本:Ubuntu + vLLM + DeepSeek 70B

# 执行前请确保:1. 系统为 Ubuntu 20.04/22.04  2. 拥有NVIDIA显卡(显存≥24G)

# 保存两个文件 1 init.sh 初始化 2、test.sh 测试

# init.sh

#!/bin/bash
# 系统更新与基础依赖

sudo apt update && sudo apt upgrade -y

sudo apt install -y build-essential python3-pip curl git wget

# NVIDIA驱动安装(需重启)

#sudo add-apt-repository ppa:graphics-drivers/ppa -y

#sudo apt update

#sudo apt install -y nvidia-driver-550-server

echo "请手动重启系统后再次执行本脚本!"

echo "sudo reboot "
exit 0  # 首次执行到此退出 


 


 

# ---- 以下为重启后执行的第二部分 ----
#test.sh

#!/bin/bash
set -e
set -o pipefail

# 模型下载示例(替换为实际模型ID)
MODEL_ID="deepseek-ai/DeepSeek-R1-Distill-Llama-70B"
python - <<EOF
from modelscope import snapshot_download
snapshot_download('$MODEL_ID', cache_dir='./models')
EOF

# 启动服务
# 如报内容不够什么的,参数可根据实际做调整
#vllm serve  ./models/$MODEL_ID  --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --port 6006  --max-model-len 8192 &
vllm serve  ./models/$MODEL_ID  --tensor-parallel-size 8 --gpu-memory-utilization 0.8  --max-num-seqs 128  --port 6006  --max-model-len 8192 &
SERVER_PID=$!
echo "Serve PID $SERVER_PID"
# 检查 PID 和端口的函数
check_status() {
    # 检查 PID 是否存在
    if [[ -z "$SERVER_PID" ]]; then
        echo "错误:SERVER_PID未定义"
        exit 1
    fi

    if ! kill -0 $SERVER_PID > /dev/null 2>&1; then
        echo "程序异常退出"
        exit 1
    fi
   sleep 3
    # 检查端口 6006 是否在使用(注意脚本中使用的是6006,而非8000)
    if ss -tuln | grep -q ':6006 '; then
        echo "服务已就绪"
        curl -i -k -X POST "http://localhost:6006/v1/chat/completions"  -H "Content-Type: application/json"  --data '{ "model": "./models/deepseek-ai/DeepSeek-R1-Distill-Llama-70B", "Max_tokens": 3072, "Temperature": 0.95, "messages": [ { "role": "user", "content": "请预测2025年到2027年我国给服务器GPU的市场" } ] }'

        echo "退出服务 kill  $SERVER_PID"
        sleep 3
        kill  $SERVER_PID

        return 0
    else
        echo "服务未就绪"
        return 1
    fi
}

# 等服务成功后测试一下
while true; do
    if check_status; then
        sleep 1
    else
        echo "程序异常退出"
        exit 1
    fi
done

保存完后
chmod +x *.sh 设置为可执行

第一次也只要一次运行 init.sh 后重启服务器
后面测试 只要 test.sh ,test.sh 第一次需要下载模型会慢一些.
如果发现serve有正常启动,那可以再手动去测试一下:
用CURL:
curl -i -k -X POST "http://localhost:6006/v1/chat/completions"  -H "Content-Type: application/json"  --data '{ "model": "./models/deepseek-ai/DeepSeek-R1-Distill-Llama-70B", "Max_tokens": 3072, "Temperature": 0.95, "messages": [ { "role": "user", "content": "请预测2025年到2027年我国给服务器GPU的市场" } ] }'

结果:


如果你要做个简单的并发可以这样:


for i in {1..1000}; do ;
    for i in {1..1000}; do ;
        curl -i -k -X POST "http://localhost:6006/v1/chat/completions"  -H "Content-Type: application/json"  --data '{ "model": "./models/deepseek-ai/DeepSeek-R1-Distill-Llama-70B", "Max_tokens": 3072, "Temperature": 0.95, "messages": [ { "role": "user", "content": "请预测2025年到2027年我国给服务器GPU的市场" } ] }'  &
    done
    wait

 done

这样提示词语是固定有可能缓存命中等,最好再来一个随机提示词.那就整理一个txt文件去一行行来做.这里就不折腾了哈
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2371915.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为了摸鱼和吃瓜,我开发了一个网站

平时上班真的比较累&#xff0c;摸鱼和吃瓜还要跳转多个平台的话&#xff0c;就累上加累了。 所以做了一个聚合了全网主流平台热搜的网站。 目前市面上确实有很多这种网站了&#xff0c;所以目前最主要有两点和他们不同&#xff1a; 给热搜列表增加了配图&#xff0c;刷的时候…

Webug4.0靶场通关笔记11- 第15关任意文件下载与第16关MySQL配置文件下载

目录 一、文件下载 二、第15关 任意文件下载 1.打开靶场 2.源码分析 3.渗透实战 三、第16关 MySQL配置文件下载 1.打开靶场 2.源码分析 3.渗透实战 &#xff08;1&#xff09;Windows系统 &#xff08;2&#xff09;Linux系统 四、渗透防御 一、文件下载 本文通过…

k8s监控方案实践(一):部署Prometheus与Node Exporter

k8s监控方案实践&#xff08;一&#xff09;&#xff1a;部署Prometheus与Node Exporter 文章目录 k8s监控方案实践&#xff08;一&#xff09;&#xff1a;部署Prometheus与Node Exporter一、Prometheus简介二、PrometheusNode Exporter实战部署1. 创建Namespace&#xff08;p…

具身系列——比较3种vpg算法方式玩CartPole游戏(强化学习)

文档1方式参考&#xff1a;https://gitee.com/chencib/ailib/blob/master/rl/vpg_baseline_cartpole.py 文档2方式参考&#xff1a;https://gitee.com/chencib/ailib/blob/master/rl/vpg_batchupdate_cartpole.py 文档3方式参考&#xff1a;https://gitee.com/chencib/ailib/bl…

面向未来的 TCP 协议设计:可扩展与兼容并存

目录 1.设计思路 &#xff08;1&#xff09;完整数据结构&#xff08;字节布局&#xff09; 1&#xff09;字段解释&#xff1a; 2&#xff09;Flags字段设计&#xff08;1字节位图&#xff09; &#xff08;2&#xff09;进阶版 Java 解码器实现&#xff08;示例&#xf…

LSB图像信息隐藏系统(MATLAB)

图像信息隐藏系统 系统概述 图像信息隐藏系统是一个基于MATLAB开发的图像隐写工具&#xff0c;采用自适应LSB&#xff08;最低有效位&#xff09;隐写算法&#xff0c;实现了信息在图像中的隐藏与提取功能。系统配备了直观的图形用户界面&#xff0c;支持图像分析、信息隐藏、…

C++GO语言微服务项目之 go语言基础语法

目录 01 变量定义 02 自增语法 03 指针 04 go不支持的语法 05 string 06 定长数组-forrange 07 动态数组追加元素 08 切片截取-copy-make介绍 09 map介绍 10 函数 11 内存逃逸 12 import 13 命令行参数-switch 14 标签与continue-goto-break配合使用 15 枚举cons…

最新字节跳动运维云原生面经分享

继续分享最新的go面经。 今天分享的是组织内部的朋友在字节的go运维工程师岗位的云原生方向的面经&#xff0c;涉及Prometheus、Kubernetes、CI/CD、网络代理、MySQL主从、Redis哨兵、系统调优及基础命令行工具等知识点&#xff0c;问题我都整理在下面了 面经详解 Prometheus …

理解 Elasticsearch 的评分机制和 Explain API

作者&#xff1a;来自 Elastic Kofi Bartlett 深入了解 Elasticsearch 的评分机制并探索 Explain API。 想获得 Elastic 认证吗&#xff1f;查看下一期 Elasticsearch Engineer 培训的时间&#xff01; Elasticsearch 拥有大量新功能&#xff0c;帮助你为你的使用场景构建最佳…

视频编解码学习三之显示器

整理自&#xff1a;显示器_百度百科&#xff0c;触摸屏_百度百科,百度安全验证 分为阴极射线管显示器&#xff08;CRT&#xff09;&#xff0c;等离子显示器PDP&#xff0c;液晶显示器LCD 液晶显示器的组成。一般来说&#xff0c;液晶显示器由以下几个部分组成&#xff1a; […

K8s网络从0到1

K8s网络从0到1 前言 K8s是一个强大的平台&#xff0c;但它的网络比较复杂&#xff0c;涉及很多概念&#xff0c;例如Pod网络&#xff0c;Service网络&#xff0c;Cluster IPs&#xff0c;NodePort&#xff0c;LoadBalancer和Ingress等等。为了帮助大家理解&#xff0c;模仿TC…

13.Excel:分列

一 分列的作用 将一个单元格中的内容拆分到两个或多个单元格当中。 二 如何使用 1.常规分列使用 注意&#xff1a;分列功能一次只能拆分一列。 长度一致或者数据间有分隔符。 补充&#xff1a;快速选择一列。 CTRL shift 向下箭头。 补充&#xff1a;中英文逗号不同。 可以先通…

计算机网络应用层(5)-- P2P文件分发视频流和内容分发网

&#x1f493;个人主页&#xff1a;mooridy &#x1f493;专栏地址&#xff1a;《计算机网络&#xff1a;自顶向下方法》 大纲式阅读笔记_mooridy的博客-CSDN博客 &#x1f493;本博客内容为《计算机网络&#xff1a;自顶向下方法》第二章应用层第五、六节知识梳理 关注我&…

Gin优雅关闭 graceful-shutdown

文章目录 优雅关闭示例 - Close 方法项目结构使用方法代码如下代码说明如果去掉代码中的数字1&#xff0c;会发生什么 优雅关闭示例项目结构使用方法使用上下文通知不使用上下文通知 代码 notify-without-context-server.go代码说明 代码 notify-with-context-server.go代码说明…

五子棋html

<!DOCTYPE html> <html lang"zh-CN"> <head> <meta charset"UTF-8" /> <meta name"viewport" content"widthdevice-width, initial-scale1" /> <title>五子棋游戏</title> <style>bo…

JavaWeb:后端web基础(TomcatServletHTTP)

一、今日内容 二、Tomcat 介绍与使用 介绍 基本使用 小结 配置 配置 查找进程 三、Servlet 什么是Servlet 快速入门 需求 步骤 1.新建工程-模块&#xff08;Maven&#xff09; 2.修改打包方式-war 3.编写代码 /*** 可以选择继承HttpServlet*/ WebServlet("/hello&q…

缓存(1):三级缓存

三级缓存是指什么 我们常说的三级缓存如下&#xff1a; CPU三级缓存Spring三级缓存应用架构&#xff08;JVM、分布式缓存、db&#xff09;三级缓存 CPU 基本概念 CPU 的访问速度每 18 个月就会翻 倍&#xff0c;相当于每年增⻓ 60% 左右&#xff0c;内存的速度当然也会不断…

Cursor —— AI编辑器 使用详解

Cursor - The AI Code Editor 一、Cursor 是什么&#xff1f; Cursor 是一款优秀的AI代码编辑器&#xff0c;它内置了 Deepseek-R1、GPT-4、Claude等 AI 模型。 简单说&#xff0c;就是&#xff1a;Cursor VS Code 编辑器 AI 大模型 Cursor 功能特性&#xff08;代码补全、…

Pytorch-CUDA版本环境配置

Pytorch-CUDA版本环境配置 电脑如果是Windows平台下的Nvidia GPU的用户&#xff0c;需配置Pytorch的CUDA版本&#xff0c;分为三步&#xff1a; 1. 安装或更新NVIDA显卡驱动 官方驱动下载地址&#xff1a; https://www.nvidia.cn/Download/index.aspx?langcn 2. 安装CUDA Too…

OpenCV 图形API(77)图像与通道拼接函数-----对图像进行几何变换函数remap()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 对图像应用一个通用的几何变换。 函数 remap 使用指定的映射对源图像进行变换&#xff1a; dst ( x , y ) src ( m a p x ( x , y ) , m a p y…