Dell R730服务器部署Nvidia K80 GPU驱动与深度学习环境全攻略
1. 环境准备从零开始的硬件与软件检查在Dell R730服务器上部署Nvidia K80 GPU之前我们需要像装修房子前检查地基一样做好准备工作。首先确认服务器已经正确安装了K80计算卡——这个双槽位的大家伙需要占用两个PCIe插槽记得检查供电接口是否接牢。我遇到过因为电源线没插紧导致系统识别不到GPU的尴尬情况排查了半天才发现是物理连接问题。操作系统选择上CentOS 7是最稳妥的方案。用以下命令查看系统版本cat /etc/redhat-release建议安装最小化版本避免不必要的软件包冲突。曾经有同事在图形界面版CentOS上安装驱动结果被Xorg服务搞得焦头烂额。内存建议至少32GB因为深度学习框架都很吃内存特别是处理大型数据集时。重要提示戴尔服务器有个贴心设计 - 生命周期控制器(iDRAC)。建议先更新固件到最新版本这能避免很多硬件兼容性问题。通过F2进入BIOS设置检查PCIe插槽的配置是否正确。2. 内核版本匹配驱动安装的第一道门槛内核版本是GPU驱动安装的最大拦路虎就像手机系统版本和APP的关系。执行这个命令查看当前内核uname -r然后检查kernel-devel包版本rpm -q kernel-devel如果两者不一致要么升级内核要么降级kernel-devel。我推荐升级内核因为老版本可能会有安全漏洞。升级命令如下sudo yum update kernel kernel-devel kernel-headers -y遇到过最头疼的情况是升级后驱动无法编译这时候需要安装EPEL仓库里的kernel-devel包sudo yum install epel-release sudo yum install kernel-devel-$(uname -r)踩坑记录有一次升级内核后忘记重启直接安装驱动导致失败。切记修改默认启动内核后一定要reboot3. 驱动安装实战避开那些隐藏的坑从戴尔官网下载驱动最保险型号选NVIDIA-Linux-x86_64-396.37.zip。为什么不用NVIDIA官网最新版因为企业级服务器讲究的是稳定不是追新。把驱动包传到服务器后先给执行权限chmod x NVIDIA-Linux-x86_64-396.37.run关键步骤来了——关闭图形界面很多新手会栽在这里systemctl stop gdm systemctl stop lightdm然后进入文本模式(CtrlAltF2)执行安装./NVIDIA-Linux-x86_64-396.37.run --no-opengl-files -s-s参数表示静默安装适合批量部署。安装完成后用nvidia-smi验证如果看到K80的信息就成功了。常见问题排查如果报错Unable to find kernel source说明kernel-devel没装对出现Xorg is running说明图形界面没关干净Failed CC version check则需要安装gcc兼容包4. CUDA 9.0环境配置性能与兼容性的平衡术虽然CUDA 10版本更新但考虑到K80的架构特性CUDA 9.0才是最匹配的选择。下载runfile安装包后执行sudo sh cuda_9.0.176_384.81_linux.run --toolkit --silent --override注意要加上override参数因为新版驱动通常会警告版本不匹配。配置环境变量时有个小技巧在~/.bashrc中加入这两行export PATH/usr/local/cuda-9.0/bin:$PATH export LD_LIBRARY_PATH/usr/local/cuda-9.0/lib64:$LD_LIBRARY_PATH然后测试CUDA是否正常工作cd /usr/local/cuda-9.0/samples/1_Utilities/deviceQuery make ./deviceQuery看到Result PASS就说明CUDA安装正确。5. Anaconda环境搭建Python生态的瑞士军刀Anaconda5.2.0是个经典版本下载地址要选对wget https://repo.anaconda.com/archive/Anaconda3-5.2.0-Linux-x86_64.sh安装时建议选yes自动初始化这样不用手动配置PATHbash Anaconda3-5.2.0-Linux-x86_64.sh创建深度学习专用环境conda create -n dl python3.6 conda activate dl安装框架时要注意版本匹配conda install tensorflow-gpu1.12.0 keras2.2.4 pytorch0.4.1 cudatoolkit9.0 -c pytorch为什么不用最新版因为CUDA 9.0对新版框架支持不好这个组合是经过实测最稳定的。6. 性能调优与监控让K80发挥真正实力K80其实是双芯卡默认只启用一半算力。通过nvidia-smi命令开启全部GPUnvidia-smi -i 0 -pm 1 nvidia-smi -i 0 -e 0第一行启用持久模式第二行开启所有计算单元。监控GPU状态有个实用工具——nvtop安装方法sudo yum install cmake git git clone https://github.com/Syllo/nvtop.git mkdir -p nvtop/build cd nvtop/build cmake .. make sudo make install最后建议设置温度墙保护显卡寿命nvidia-smi -i 0 -pl 225这个命令将功耗限制在225W避免长时间满载运行。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2427797.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!