保姆级教程:手把手在Dell R720xd服务器上为Ubuntu 18.04 LTS配置Tesla P100 PCIe直通
Dell R720xd服务器实战Ubuntu 18.04 LTS与Tesla P100 PCIe直通全解析当你面对一台老当益壮的Dell PowerEdge R720xd服务器和Tesla P100计算卡时如何在虚拟化环境中榨干这块专业GPU的每一分性能本文将带你穿越从BIOS微调到驱动安装的完整技术迷宫避开那些教科书不会告诉你的坑位。1. 硬件准备与BIOS调校R720xd作为Dell第12代PowerEdge系列的代表作其BIOS选项布局与当代服务器存在显著差异。首先按下F2进入System Setup重点检查以下三个关键区域Processor Settings确保Virtualization Technology和VT for Directed I/O已启用Memory Settings将Node Interleaving设为DisabledNUMA架构对GPU性能影响显著PCI Settings老款BIOS可能没有明确的Above 4G Decoding选项但需确认PCI 64-bit Resource Handling处于开启状态提示R720xd的BIOS版本需升级至2.9.0以上才能完整支持PCIe 3.0设备使用racadm get BIOS. BiosCurrentVersion命令验证版本号。针对Tesla P100的特殊需求建议进行以下硬件调整优先使用PCIe Gen3 x16插槽通常为Slot 4和Slot 7检查服务器背板的供电能力P100 PCIe版本需要75W75W供电使用nvidia-smi -q确认卡片的PCIe链路宽度和速率2. ESXi主机层关键配置在vSphere Client中完成基础安装后这些隐藏设置决定了直通成败# 查看PCI设备地址记下P100的0000:XX:00.0格式地址 esxcli hardware pci list | grep -i nvidia # 启用设备直通 esxcli hardware pci passthru set -d 0000:XX:00.0 -e true内存映射配置对照表直通GPU数量单卡显存(GB)计算值MMIO SizeGB1161632216326441664128在虚拟机高级参数中添加pciPassthru.use64bitMMIO TRUE pciPassthru.64bitMMIOSizeGB 64 # 按上表计算3. Ubuntu 18.04虚拟机精调创建虚拟机时这些细节至关重要固件类型必须选择EFI传统BIOS会导致PCIe设备枚举失败虚拟硬件版本至少v13以获得完整PCIe 3.0支持CPU分配建议为每个vGPU分配完整NUMA节点内存配置勾选预留所有客户机内存禁用内存膨胀和交换安装系统后立即执行# 禁用nouveau驱动 echo blacklist nouveau | sudo tee /etc/modprobe.d/blacklist-nvidia-nouveau.conf echo options nouveau modeset0 | sudo tee -a /etc/modprobe.d/blacklist-nvidia-nouveau.conf sudo update-initramfs -u4. NVIDIA驱动安装与验证针对Ubuntu 18.04 LTS的特定版本需求# 添加官方驱动仓库 sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update # 安装470系列长期支持版驱动 sudo apt install nvidia-driver-470-server nvidia-cuda-toolkit # 验证安装 nvidia-smi -q | grep -A 5 Attached GPUs常见故障排查指南No devices found确认ESXi主机已重启应用直通设置检查虚拟机是否配置了正确的EFI启动验证PCI设备地址是否匹配性能低下# 检查PCIe链路状态 nvidia-smi -q | grep -i link width # 验证GPU时钟状态 watch -n 1 nvidia-smi -q -d PERFORMANCEXorg冲突# 为计算专用服务器禁用X服务 sudo systemctl set-default multi-user.target sudo systemctl isolate multi-user.target在R720xd这种经典平台上我遇到最棘手的问题是PCIe ASPM电源管理导致的设备丢失。最终通过在ESXi主机添加以下参数解决/etc/vmware/config 中添加 pciPassthru0.msiEnabled FALSE pciPassthru0.allowP2P TRUE
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2579386.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!