手把手教你用Ollama在海光K100-AI上跑大模型(含完整驱动安装指南)
手把手教你用Ollama在海光K100-AI上跑大模型含完整驱动安装指南在国产化技术浪潮中海光DCUDeep Computing Unit作为自主可控的加速计算平台正逐渐成为AI开发者的新选择。本文将带你从零开始在海光K100-AI上部署Ollama大模型推理框架涵盖驱动安装、环境配置到模型运行的完整流程。无论你是想体验国产硬件的大模型性能还是需要在特定环境中部署AI服务这篇指南都能提供实用参考。1. 海光K100-AI环境准备1.1 硬件与系统要求在开始前请确保你的设备满足以下基本条件硬件配置海光K100-AI加速卡至少1张x86_64架构服务器建议内存≥64GB存储空间≥100GB用于模型和依赖操作系统Ubuntu 20.04/22.04 LTS推荐CentOS 7.9/8.4需注意内核版本兼容性提示使用uname -r确认内核版本建议保持系统更新至最新稳定版1.2 基础依赖安装根据系统类型选择对应命令Ubuntu系统sudo apt update sudo apt install -y \ gcc g cmake automake \ libelf-dev libdrm-amdgpu1 \ libtinfo5 pciutils libdrm-dev \ linux-headers-$(uname -r) \ linux-modules-extra-$(uname -r)CentOS系统sudo yum install -y \ rpm-build gcc-c cmake automake \ elfutils-libelf-devel libdrm libdrm-devel \ pciutils kernel-devel-$(uname -r) \ kernel-modules-extra-$(uname -r)安装完成后建议重启系统以确保内核模块加载正常。2. DCU驱动安装与验证2.1 驱动获取与安装从海光官方渠道获取最新驱动通常为.run格式执行以下命令完成安装chmod x rock-dkms*.run sudo ./rock-dkms*.run sudo systemctl restart hymgr注意若系统提示vbios需要升级必须重启服务器才能生效2.2 驱动状态检查安装成功后使用以下命令验证hy-smi # 查看DCU设备状态 rocminfo | grep gfx # 确认设备架构版本正常输出应包含类似信息Name: K100-AI GFX Version: gfx928 Memory: 32768 MB若遇到驱动问题可尝试重新加载内核模块sudo modprobe -r amdgpu sudo modprobe amdgpu3. 容器化环境配置3.1 准备DCU专用Docker海光提供了预配置的PyTorch镜像包含完整的DCU支持docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.3.0-py3.10-dtk24.04.3-ubuntu20.04启动容器时需要特殊参数启用DCU支持docker run --shm-size 500g \ --networkhost \ --privileged \ --device/dev/kfd \ --device/dev/dri \ --group-add video \ --cap-addSYS_PTRACE \ --security-opt seccompunconfined \ -v /opt/hyhal:/opt/hyhal:ro \ -v $(pwd):/workspace \ -it IMAGE_ID bash关键参数说明参数作用--device/dev/kfd启用KFD设备接口--group-add video授予视频设备访问权限--shm-size 500g设置共享内存大小3.2 容器内环境验证进入容器后执行以下测试python3 -c import torch; print(torch.cuda.is_available()) # 应返回True rocminfo # 检查DCU设备识别情况4. Ollama编译与部署4.1 源码获取与准备git clone -b 0.5.7 http://developer.sourcefind.cn/codes/OpenDAS/ollama.git --depth1 cd ollama安装指定版本的Go语言环境wget https://go.dev/dl/go1.23.4.linux-amd64.tar.gz sudo tar -C /usr/local -xzf go1.23.4.linux-amd64.tar.gz export PATH$PATH:/usr/local/go/bin提示国内用户可设置Go代理加速下载go env -w GOPROXYhttps://goproxy.cn,direct4.2 编译Ollama设置必要的环境变量后开始编译export LIBRARY_PATH/opt/dtk/lib:$LIBRARY_PATH make -j $(nproc) go build .编译成功后当前目录会生成ollama可执行文件。4.3 服务端配置启动服务前需设置设备参数export HSA_OVERRIDE_GFX_VERSION9.2.8 # K100-AI对应值 export ROCR_VISIBLE_DEVICES0 # 使用第一张DCU卡 ./ollama serve常见设备对应值设备型号GFX版本Z100L9.0.6K1009.2.6K100-AI9.2.85. 模型运行与优化5.1 基础模型运行新建终端进入容器执行交互命令./ollama run deepseek-r1:671b常用管理命令ollama ps查看资源占用ollama list显示已下载模型ollama pull model下载新模型5.2 多卡并行配置若要使用多张DCU卡修改环境变量export ROCR_VISIBLE_DEVICES0,1,2,3 # 使用前4张卡在模型运行命令中添加并行参数./ollama run --parallel 4 deepseek-r1:671b5.3 性能调优建议内存优化增加Docker共享内存大小--shm-size设置OMP_NUM_THREADS为物理核心数计算优化export HCC_AMDGPU_TARGETgfx928 export HIP_VISIBLE_DEVICES$ROCR_VISIBLE_DEVICES模型量化优先使用4-bit量化版本模型考虑使用--quantize q4_0参数6. 常见问题排查驱动加载失败检查/var/log/hymgr.log日志确认内核头文件版本与运行内核一致模型运行卡顿hy-smi -l # 监控DCU利用率 top -H -p $(pgrep ollama) # 查看线程状态容器内设备不可见确认docker run参数正确检查/dev/dri设备权限编译错误确保LIBRARY_PATH包含DCU库路径检查Go版本是否为1.23.4实际部署中发现海光K100-AI在运行70亿参数模型时推理速度能达到约15 tokens/sFP16精度显存占用控制在24GB以内。相比同级别GPU在特定模型上展现出不错的性价比优势。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2425032.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!