RDK X5 量化工具链环境搭建完整指南(Ubuntu 22.04 LTS + GPU版——RTX5080)

news2026/4/25 17:04:40
RDK X5 量化工具链环境搭建完整指南Ubuntu 22.04 LTS GPU版——RTX5080适用场景物理机 Ubuntu 22.04 LTS NVIDIA 5080独立显卡用于地平线 RDK X5 模型量化部署工具链版本OpenExplorer v1.2.8-py310验证环境Ubuntu 22.04 LTS NVIDIA GeForce RTX 5080 Driver 595.58 CUDA 13.2作者注本文基于真实踩坑经验特别针对国内网络环境优化了所有下载步骤 目录前置条件确认安装 Docker安装 NVIDIA Container Toolkit重点/踩坑配置 Docker 使用 NVIDIA Runtime准备工作目录下载并导入 OE 工具链镜像启动 GPU 量化容器验证环境常见问题排查1. 前置条件确认1.1 硬件要求组件最低要求推荐CPU4核8核内存16GB32GB硬盘100GB 可用空间200GB SSD显卡NVIDIA GTX 1060RTX 系列1.2 系统要求操作系统Ubuntu 22.04 LTS物理机非虚拟机NVIDIA 驱动已安装520 版本推荐RTX 40/50 系需要 550网络国内网络本文所有步骤均针对国内环境优化1.3 确认驱动状态在开始之前先确认 NVIDIA 驱动已正确安装nvidia-smi预期输出示例----------------------------------------------------------------------------- | NVIDIA-SMI 595.58.03 Driver Version: 595.58.03 CUDA Version: 13.2 | |--------------------------------------------------------------------------- | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | 0 NVIDIA GeForce RTX 5080 Off | 00000000:01:00.0 On | N/A | -----------------------------------------------------------------------------如果此命令报错请先安装 NVIDIA 驱动再继续后续步骤。2. 安装 Docker如果已安装 Docker可跳过此章节直接到第3章。2.1 卸载旧版本可选sudoapt-getremove-ydockerdocker-engine docker.io containerd runc2/dev/null||true2.2 添加 Docker 源使用阿里云镜像国内友好# 安装依赖sudoapt-getupdatesudoapt-getinstall-yca-certificatescurlgnupg# 添加 Docker GPG 密钥阿里云curl-fsSLhttps://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg|\sudogpg--dearmor-o/usr/share/keyrings/docker-archive-keyring.gpg# 添加 Docker APT 源echodeb [arch$(dpkg --print-architecture)signed-by/usr/share/keyrings/docker-archive-keyring.gpg] \ https://mirrors.aliyun.com/docker-ce/linux/ubuntu$(lsb_release-cs)stable|\sudotee/etc/apt/sources.list.d/docker.list/dev/null2.3 安装 Docker Enginesudoapt-getupdatesudoapt-getinstall-ydocker-ce docker-ce-cli containerd.io# 验证安装sudodockerversion2.4 启动 Docker 并设置开机自启sudosystemctl startdockersudosystemctlenabledockersudosystemctl statusdocker# 看到 active (running) 即成功2.5 将当前用户加入 docker 组免 sudosudogroupadddocker2/dev/null||truesudousermod-aGdocker$USERnewgrpdocker# 验证不再需要 sudodockerps2.6 配置 Docker 镜像加速国内加速sudomkdir-p/etc/dockersudotee/etc/docker/daemon.jsonEOF { registry-mirrors: [ https://docker.m.daocloud.io, https://mirror.baidubce.com, https://docker.nju.edu.cn, https://hub-mirror.c.163.com ], log-driver: json-file, log-opts: { max-size: 100m, max-file: 3 } } EOFsudosystemctl daemon-reloadsudosystemctl restartdocker3. 安装 NVIDIA Container Toolkit重点/踩坑⚠️这是本文最关键的章节也是国内环境最容易卡住的步骤。3.1 为什么需要 NVIDIA Container ToolkitDocker 容器默认无法访问宿主机的 GPU。NVIDIA Container Toolkit 提供了一套运行时钩子让容器可以透传访问 NVIDIA GPU。如果缺少此组件运行--gpus all时会报错docker: Error response from daemon: failed to discover GPU vendor from CDI: no known GPU vendor found3.2 国内安装的问题官方安装方式需要访问nvidia.github.io该地址在国内无法访问导致直接添加官方源 → SSL 连接失败清华镜像mirrors.tuna.tsinghua.edu.cn/libnvidia-container→ 404 Not FoundGitHub Releases 直接下载.deb→ 404 Not Found文件命名不匹配3.3 ✅ 正确方案使用 NVIDIA CUDA 官方 CDN国内可访问developer.download.nvidia.com是 NVIDIA 的官方 CUDA 下载 CDN国内可以正常访问其软件源中包含了 nvidia-container-toolkit。第一步添加 CUDA Keyringcd~wgethttps://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.debsudodpkg-icuda-keyring_1.1-1_all.deb第二步更新软件源sudoapt-getupdate更新时你会看到类似输出说明源已生效获取:9 https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64 InRelease [1,581 B] 获取:10 https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64 Packages [2,533 kB]第三步安装不要指定版本号避免依赖冲突sudoapt-getinstall-ynvidia-container-toolkit⚠️常见错误如果你指定了版本号如nvidia-container-toolkit1.13.5-1会出现依赖冲突报错nvidia-container-toolkit : 依赖: nvidia-container-toolkit-base ( 1.13.5-1) 但是 1.19.0-1 正要被安装解决方法去掉版本号直接sudo apt-get install -y nvidia-container-toolkit即可。4. 配置 Docker 使用 NVIDIA Runtime安装完 Toolkit 后需要配置 Docker daemon 使用 NVIDIA runtime# 配置 runtimesudonvidia-ctk runtime configure--runtimedocker# 重启 Docker 使配置生效sudosystemctl restartdocker成功后/etc/docker/daemon.json会被自动更新加入 NVIDIA runtime 配置。5. 准备工作目录# 创建工作目录建议统一放在 workspace_rdkx5 下mkdir-p~/workspace_rdkx5/rdkx5_dataset/raw_imagesmkdir-p~/workspace_rdkx5/rdkx5_models# 查看结构ls~/workspace_rdkx5/目录规划说明~/workspace_rdkx5/ ├── horizon_x5_open_explorer_v1.2.8-py310_20240926/ # OE工具链解压后 ├── rdkx5_dataset/ # 数据集 │ └── raw_images/ # 校准用原始图片 └── rdkx5_models/ # 模型文件(.pt/.onnx/.bin)6. 下载并导入 OE 工具链镜像6.1 下载工具链包FTP方式地平线官方提供 FTP 下载国内速度较快cd~/workspace_rdkx5# 下载 GPU 版约10GB需耐心等待wget-cftp://x5ftpvrftp.horizon.ai/OpenExplorer/v1.2.8_release/docker_openexplorer_ubuntu_20_x5_gpu_v1.2.8.tar.gz\--ftp-passwordx5ftp123$%下载参数说明-c支持断点续传中断后重新运行同样命令会从断点继续文件约 10GB校园网/百兆以上带宽约需 2-5 分钟GPU 版 vs CPU 版选择版本文件名适用场景GPU 版docker_openexplorer_ubuntu_20_x5_gpu_v1.2.8.tar.gz有 NVIDIA 独立显卡量化速度更快CPU 版docker_openexplorer_ubuntu_20_x5_cpu_v1.2.8.tar.gz无 GPU 或虚拟机环境6.2 导入 Docker 镜像cd~/workspace_rdkx5dockerload-idocker_openexplorer_ubuntu_20_x5_gpu_v1.2.8.tar.gz⚠️注意导入过程约需 5-15 分钟进度条可能长时间停在某处这是正常现象不要按 CtrlC 中断。成功标志Loaded image: openexplorer/ai_toolchain_ubuntu_20_x5_gpu:v1.2.8-py3106.3 验证镜像dockerimages|grepopenexplorer预期输出openexplorer/ai_toolchain_ubuntu_20_x5_gpu v1.2.8-py310 9833bd0d6e4a 44.4GB 22GB7. 启动 GPU 量化容器7.1 设置环境变量exportat_toolchain_package_path~/workspace_rdkx5/horizon_x5_open_explorer_v1.2.8-py310_20240926exportdataset_path~/workspace_rdkx5/rdkx5_datasetexportmodels_path~/workspace_rdkx5/rdkx5_models持久化避免每次终端都要重新设置cat~/.bashrcEOF # RDK X5 量化环境变量 export at_toolchain_package_path~/workspace_rdkx5/horizon_x5_open_explorer_v1.2.8-py310_20240926 export dataset_path~/workspace_rdkx5/rdkx5_dataset export models_path~/workspace_rdkx5/rdkx5_models EOFsource~/.bashrc7.2 启动容器dockerrun-it--rm\--gpusall\--shm-size15g\-v$at_toolchain_package_path:/open_explorer\-v$dataset_path:/data\-v$models_path:/models\openexplorer/ai_toolchain_ubuntu_20_x5_gpu:v1.2.8-py310参数说明参数说明-it交互式终端--rm退出时自动删除容器数据保留在宿主机挂载目录--gpus all透传所有 GPU 到容器--shm-size15g共享内存 15GB防止大模型量化时 OOM-v 宿主路径:容器路径目录挂载数据持久化成功进入容器的标志root535fccc60b01:/open_explorer#8. 验证环境进入容器后依次运行以下验证命令8.1 验证量化工具hb_mapper--version预期输出hb_mapper, version 1.24.38.2 验证 GPU 可用性# 方法1直接查看 GPU 信息nvidia-smi# 方法2用 PyTorch 验证 CUDApython3-cimport torch; print(CUDA可用:, torch.cuda.is_available()); print(GPU型号:, torch.cuda.get_device_name(0))预期输出CUDA可用: True GPU型号: NVIDIA GeForce RTX 50808.3 验证 Python 环境python3--versionpip list|grep-Eonnx|torch|numpy至此GPU 量化环境搭建完成 ✅9. 常见问题排查❌ 问题1failed to discover GPU vendor from CDI: no known GPU vendor found原因nvidia-container-toolkit 未安装或未配置。解决完整执行第3章和第4章的步骤。❌ 问题2nvidia.github.ioSSL 连接失败 / 清华源 404原因官方源和清华镜像均不可用国内网络限制。解决使用本文第3章的developer.download.nvidia.com方案。❌ 问题3指定版本号安装时依赖冲突错误信息nvidia-container-toolkit : 依赖: nvidia-container-toolkit-base ( 1.13.5-1) 但是 1.19.0-1 正要被安装解决不指定版本号直接运行sudoapt-getinstall-ynvidia-container-toolkit❌ 问题4docker load 导入镜像时长时间无进度原因正常现象镜像解压是 CPU 密集型操作。判断是否卡死新开终端运行htop查看是否有dockerd进程在占用 CPU。有占用说明正常工作耐心等待即可。❌ 问题5容器内 nvidia-smi 报错可能原因Docker daemon 配置未重启生效。解决# 退出容器在宿主机执行sudosystemctl restartdocker# 重新启动容器❌ 问题6--gpus all与旧版 Docker 不兼容原因旧版 Docker 19.03不支持--gpus参数。解决升级 Docker或改用dockerrun-it--rm\--runtimenvidia\-eNVIDIA_VISIBLE_DEVICESall\...附录快速启动脚本每次需要进入量化环境时运行以下脚本#!/bin/bash# 保存为 ~/start_rdkx5.sh# 运行: bash ~/start_rdkx5.shexportat_toolchain_package_path~/workspace_rdkx5/horizon_x5_open_explorer_v1.2.8-py310_20240926exportdataset_path~/workspace_rdkx5/rdkx5_datasetexportmodels_path~/workspace_rdkx5/rdkx5_modelsdockerrun-it--rm\--gpusall\--shm-size15g\-v$at_toolchain_package_path:/open_explorer\-v$dataset_path:/data\-v$models_path:/models\openexplorer/ai_toolchain_ubuntu_20_x5_gpu:v1.2.8-py310保存并赋予执行权限chmodx ~/start_rdkx5.sh以后每次只需运行bash ~/start_rdkx5.sh即可一键进入量化环境。文档版本v1.0 | 最后更新2026-04-19 | 基于 OpenExplorer v1.2.8-py310

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2536798.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…