曙光云使用说明

news2025/7/31 15:40:25

平台链接

https://ac.sugon.com/ac/home/index.html

控制台界面

创建个人工作目录及上传文件。点击概览页面顶端的 E-Shell 菜单栏,进入所连主机的 Shell 终端。在用户目录下新建个人工作目录,如:mkdir ywj2


安装MiniConda(推荐)

参考链接:https://ac.sugon.com/doc/1.0.6/11250/general-handbook/software-tutorial/DeepLearning-1.html#1-miniconda%E5%AE%89%E8%A3%85

使用wget下载(下载时间可能有点久)

wget https://repo.anaconda.com/miniconda/Miniconda3-py37_4.9.2-Linux-x86_64.sh -i https://pypi.tuna.tsinghua.edu.cn/simple/

添加权限并运行

chmod +x Miniconda3-py37_4.9.2-Linux-x86_64.sh
mkdir -p ~/miniconda3/
bash Miniconda3-py37_4.9.2-Linux-x86_64.sh -b -f -p "~/miniconda3/"
rm -rf Miniconda3-py37_4.9.2-Linux-x86_64.sh

初始化 conda 环境

~/miniconda3/bin/conda init
source ~/.bashrc

先换个清华源(加速)

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/menpo/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge 
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --set show_channel_urls yes

conda创建python3.7环境

conda create -n yolov5 python=3.7

激活环境

conda activate yolov5

本地安装PyTorch1.7(重点

由于曙光云使用的是国产GPU(即DCU),硬件是基于ROCm的,因此不能适配PyTorch官网下载的包(无法调用DCU),因此只能使用曙光云平台提供的编译好的PyTorch包进行安装。切忌不能使用pip install torch==1.7.0 torchvision的命令直接安装,而应该选择曙光云本地提供的包进行安装。参考此链接:https://ac.sugon.com/doc/1.0.6/11276/general-handbook/compile/pytorch110.html

本地whl所在目录

/public/software/apps/DeepLearning/whl/dtk-21.04

进入whl所在目录看看

cd /public/software/apps/DeepLearning/whl/dtk-21.04

以安装PyTorch1.8为例(torch1.8和torchvision0.9适配)

# 安装torch
pip install /public/software/apps/DeepLearning/whl/dtk-21.04/torch-1.8.0a0+56b43f4-cp37-cp37m-linux_x86_64.whl
# 安装torchvision
pip install /public/software/apps/DeepLearning/whl/dtk-21.04/torchvision-0.9.0a0-cp37-cp37m-linux_x86_64.whl

根据项目的需求安装其他依赖(记得激活自己的环境再安装)。提示:除了与GPU有关的包(比如torch和torchvision等),其他包我们都可以从网上直接下载,即可以使用pip install numpy 这类命令直接从网上下载,无需曙光云本地提供。

# 安装自己想要的包
pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install Pillow
pip install scipy

开始使用

查看所在队列

whichpartition

申请并登录计算节点,进行测试

# salloc -p 队列名 -N 1 --gres=dcu:申请DCU的数量
salloc -p wzhdtest -N 1 --gres=dcu:2

登录计算节点

# ssh 节点
ssh b01r4n05

切换rocm编译器版本(加载dtk21.04),跟后续使用GPU的关系很大!

module switch compiler/dtk/21.04

在本地创建一个pytorch_env.sh的文件,添加环境变量!

vi  ~/pytorch_env.sh

export
LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH

# 记得以后每次登录新的节点时,一定要执行一次source ~/pytorch_env.sh命令,这关系到服务器能不能找到PyTorch
source ~/pytorch_env.sh

激活conda环境(登录到计算节点后会退出之前的环境,所以需要重新激活环境)

conda activate yolov5

进入环境,查看DCU能不能用,依次执行以下命令

python

import torch
torch.cuda.is_available()
torch.__version__

进入项目文件即可开始训练

cd ~/ywj/yolov5-colab
python train.py --data data/citrus.yaml --cfg models/yolov5s.yaml  --weights weights/yolov5s.pt --epochs 150 --batch-size 4

查看DCU状态的命令

hy-smi

【注意】srun和salloc方式使用时需要保持E-Shell页面常开启,否则此终端对应的作业将出现结束。


补充

显卡相关

使用的显卡:海光 DCU (Deep Computing Unit)

  • 7nm 工艺,2.5D Interposer SoC 封装
  • TDP 300W
  • FP64 6.6 TF,FP32 13.1 TF,FP16 26.2 TF
  • 16GB HBM2(可支持32GB),带宽 1TB/s
  • PCIe 3.0 x16,支持升级到 PCIe Gen4
  • 支持 GPUDirect RDMA
  • 支持 OpenCL,兼容 CUDA 主流异构编程标准
  • 提供 BLAS, FFT, Sparse, Convolutions, Tensor, Softmax, LRN, BN, Activation, Pooling 等库函数
  • 已支持 TensorFlow, Caffe, Caffe2, Keras, …
  • 比2080TI快一些, 跑训练不如3080。
  • 硬件是基于ROCm的

批作业提交(除了使用salloc的另一种提交作业的方式)

提示:除了使用salloc的另一种提交作业的方式,这种方式关了网页程序也能在后台跑

参考链接:https://ac.sugon.com/doc/1.0.6/11276/general-handbook/scheduler/sbatch.html

创建yolo.sh作业文件

#!/bin/bash
#SBATCH -o yolo.out
#SBATCH --partition=wzhdtest
#SBATCH --qos=low
#SBATCH -J myFirstGPUJob
#SBATCH --nodes=1             
#SBATCH --ntasks-per-node=6
#SBATCH --gres=dcu:1             

module switch compiler/dtk/21.04
source ~/pytorch_env.sh
source ~/miniconda3/etc/profile.d/conda.sh
conda activate yolov5
cd ~/ywj/yolov5-colab
python train.py --data data/citrus.yaml --cfg models/yolov5s.yaml  --weights weights/yolov5s.pt --epochs 10 --batch-size 8

提交yolo.sh作业文件

sbatch yolo.sh

conda命令相关

//换源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/menpo/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge 
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --set show_channel_urls yes

//恢复原来的源
conda config --remove-key channels

//新建conda环境
conda create --name maskrcnn_benchmark python=3.7

//查看环境
conda info --env

//清理conda缓存
conda clean -p
conda clean -t

//删除环境
conda remove --name new_env_name --all

//复制环境,这个命令特别有用,假如一个环境有相应版本的PyTorch,那么就可以直接复制环境,再额外安装自己想要的包
conda create --name new_env_name --clone old_env_name 

//导出环境
conda env export > environment.yml

//导入环境
conda env create -f environment.yml

//激活环境
conda activate maskrcnn_benchmark

最后感谢小伙伴们的学习噢~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/16190.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu20.04 如何开启root账户登陆

环境: 电脑:戴尔7080 系统:Windows 10 专业版 64位 VMware 16.0 :Ubuntu20.04 问题描述: Ubuntu20.04 如何开启root账户登陆 解决方案: 1.以普通用户登录系统,创建root用户的密码 在终端…

Java代码审计——WebGoat XSS

目录 (一)XSS 常见触发位置 1.JSP 表达式 2.EL (二)反射型 XSS (三) 存储型 XSS (四)XSS 漏洞修复 配置过滤器: (一)XSS 常见触发…

HTML期末作业课程设计期末大作业__电影长津湖介绍带视频(6页)

⛵ 源码获取 文末联系 ✈ Web前端开发技术 描述 网页设计题材,DIVCSS 布局制作,HTMLCSS网页设计期末课程大作业 | 摄影作品 | 影视设计网页 | 在线电影 | 视频音频元素 | HTML期末大学生网页设计作业,Web大学生网页 HTML:结构 CSS&#xff1…

uiautomator2的安装,使用,在浏览器中查看页面的信息,简单快捷的ui测试工具,app测试工具(一)

uiautomator2的安装,使用,简单快捷的ui测试工具,app测试工具 安装方法 命令行中输入 pip install uiautomator pip install weditor在andriod studio中启动一个模拟器 启动 python -m weditor即可在浏览器看到弹出的窗口,里面…

【滤波跟踪】基于不变扩展卡尔曼滤波器对装有惯性导航系统和全球定位系统IMU+GPS进行滤波跟踪附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法 …

核苷酸类化合物库 脂类化合物库参与细胞调控

核苷及核苷酸是机体内的一种重要的内源物质,参与细胞的多种生命进程,如 DNA 和 RNA 合成,信号转导及代谢等。核苷及核苷酸类似物是人工合成的,经过一定化学修饰的物质,可以模拟机体内核苷及核苷酸,参与细胞…

Git合并出现MERGING有效解决方法

Git合并出现MERGING有效解决方法错误描述解决办法参考链接错误描述 我在操作git合并时候意外出现了MERGING,很懵逼,如图所示: 遇到这个问题也是很头疼了,百度了很多方法有说是:“在命令行输入:git reset …

“以赛助教”进校园,CCF大数据与计算智能大赛成高校人才探索实践AI技术的第二课堂!

随着第十届CCF大数据与计算智能大赛(简称2022 CCF BDCI)的报名通道关闭、《大咖说系列专题报告》收官,“以赛助教”系列活动也正式宣告结束。 CCF大数据与计算智能大赛(CCF BDCI)由中国计算机学会于2013年创办&#x…

verilog 流水线控制

文章目录Verilog 流水线控制1、关键问题、实现方式及其对比2、实现方式2.1、控流水线输入:根据每一拍的 din_en_d* 打拍,没有最终的 else block2.2、控流水线输入:根据每一拍的 din_en_d* 打拍,有最终的 else block2.3、控流水线每…

真香!宝藏学习方式还可以这样,家人们绝不能错过

文 / 谷雨(微信公众号:王不留) 《谷雨:告诉大家一个小秘密》一文,辛苦码字半夜,阅读量却扑街,我想根本原因是标题名字起得太差。 前几天看了一个不知真假的截屏,说到小红书上的关键词…

Linux挂载Windows端NFS服务(实现板端Linux与PC互传文件)

Linux挂载Windows端NFS服务(实现板端Linux与PC互传文件) 1. kernel编译时打开NFS客户端服务 在宿主机打开kernel文件夹,先make clean,然后make menuconfig,进入配置界面: 使用/查找NFS,找到Ne…

终于有阿里P8从开发、运维两个角度总结出了Redis实战手册

从开发、运维两个角度总结了Redis实战经验,深入浅出地剖析底层实现,包含大规模集群开发与运维的实际案例、应用技巧。 前言Redis作为基于键值对的NoSQL数据库,具有高性能、丰富的数据结构、持久化、高可用、分布式等特性,同时Redi…

Windows10安装Docker(基于WSL2,包含WSL2安装教程)

WSL2 wsl是windows自带的功能,只需要开启Windows功能即可安装子系统 可以通过以下命令获取发行版名字 wsl --list --online通过以下命令安装 wsl --install -d ${发行版名字} 如 wsl --install -d Ubuntu-20.04安装后会弹出来子系统设置用户名密码 运行以下命令…

matlab解下列微分方程

解下列微分方程 &#xff08;1&#xff09;ydsolve(‘Dyxy’,‘y(0)1’,‘x’) y -x-12exp(x) x[1 2 3] x 1 2 3 -x-12exp(x) ans 3.4366 11.7781 36.1711 &#xff08;2&#xff09;x’2x3y,y’2xy,x(0)-2,y(0)2.8,0<t<10,做相平面图 新建M函数 function dyweifen1(…

d盘不见了怎么恢复?数据恢复,一键操作

d盘是我们日常生活中常用的一种硬盘&#xff0c;平时我们会用到 d盘来存储我们平时要用到的文件资料&#xff0c;如文档、图片、视频等。而由于我们日常使用它时都是在 Windows系统下&#xff0c;所以就很容易忽略 d盘的重要性了。当遇到 d盘不见的情况&#xff0c; d盘不见了怎…

php宝塔部署实战ptcms小说管理系统源码带采集规则

大家好啊&#xff0c;我是测评君&#xff0c;欢迎来到web测评。 有个朋友发消息跟我说&#xff0c;他下载了一套ptcms的小说系统&#xff0c;在搭建的时候一直部署不好&#xff0c;这套系统还带有采集功能的&#xff0c;让我帮他看看&#xff0c;我抽空看了并测试了一下&#x…

【菜菜的sklearn课堂笔记】逻辑回归与评分卡-梯度下降求解逻辑回归

视频作者&#xff1a;菜菜TsaiTsai 链接&#xff1a;【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibili 我们以最著名也最常用的梯度下降法为例。 现在有一个带两个特征并且没有截距的逻辑回归y(x1,x2)y(x_{1},x_{2})y(x1​,x2​)&#xff0c;两个特征…

【java】 对命名规范的思考——VO,BO,PO,DO,DTO是什么

作为Java开发人员免要接触VO&#xff0c;BO&#xff0c;PO&#xff0c;DO&#xff0c;DTO&#xff0c;但很多朋友对这些概念一直以来都是云里雾里&#xff0c;本来是规范性的东西&#xff0c;使用起来却反而导致更加混乱了。先附上我自己常用的命名习惯&#xff1a; 数据对象&…

IVIF:multi-scale densenet

UNFusion: A unified multi-scale densely connected network for infrared and visible image fusion &#xff08;UNFusion: 用于红外和可见光图像融合的统一多尺度密集连接网络&#xff09; 大多数基于深度学习的方法主要侧重于卷积操作来提取局部特征&#xff0c;但没有充…

推荐系统最通俗介绍

文章目录1.推荐系统概念2.推荐系统发展历史3.个性化推荐系统框架4.部分案例4.1 搜狐视频个性化推荐架构4.2 今日头条推荐系统架构4.3 Netflix推荐系统架构图5. 视频推荐系统流程设计总结资料整理&#xff0c;来源于北大刘宏志教授讲座内容。 在介绍推荐系统前&#xff0c;我们先…