002、零基础搭建你的第一个AI开发环境
昨天帮隔壁组实习生看代码小伙子对着屏幕发愁“环境都跑不起来一训练就报cuda版本不匹配。”我凑过去一看好家伙系统里装了三个Python版本conda环境混着pip装torch版本和cuda差了两位小数。这场景太熟悉了——环境配置这道坎多少新手栽在这里。环境选择别急着追新很多人一上来就装最新版Python、最新版CUDA结果掉进兼容性陷阱。我的建议是求稳不求新。当前时间点Python 3.8-3.10是大多数AI框架验证过的稳定区间。CUDA版本要看你的显卡——老黄家驱动页面查清楚30系卡通常从CUDA 11.3起步40系建议CUDA 12.x。# 查看显卡支持的CUDA版本nvidia-smi# 右上角显示的就是最高支持的CUDA版本# 别装超过这个数字的版本装低了可以升级安装姿势conda隔离大法好直接往系统Python里怼包是灾难的开始。用conda/miniconda创建独立环境每个项目一个沙箱互不干扰。# 创建环境时指定Python版本避免后续冲突conda create-nai_envpython3.9-y# 激活环境Windows用conda activatesourceactivate ai_env# 这时候pip install才是装到这个环境里# 不激活环境就装包等着后悔吧PyTorch安装官网命令别照抄去PyTorch官网生成安装命令时注意两个坑第一CUDA版本选对第二去掉末尾的-c pytorch。# 官网生成的命令长这样condainstallpytorch torchvision torchaudio pytorch-cuda11.8-cpytorch# 实际应该去掉-c pytorch用国内镜像加速condainstallpytorch torchvision torchaudio pytorch-cuda11.8# -c参数会强制从官方频道下载速度慢到怀疑人生# 国内配置清华源或中科大源才是正道配置conda镜像源Linux/Mac在~/.condarcWindows在C:\Users\用户名\.condarcchannels:-defaultsshow_channel_urls:truedefault_channels:-https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main-https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r-https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2custom_channels:conda-forge:https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudpytorch:https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud验证安装别信“安装成功”装完一定要跑验证脚本很多问题在import时才暴露。importtorchprint(fPyTorch版本:{torch.__version__})print(fCUDA是否可用:{torch.cuda.is_available()})iftorch.cuda.is_available():print(fGPU型号:{torch.cuda.get_device_name(0)})print(fCUDA版本:{torch.version.cuda})# 跑个张量计算试试水xtorch.rand(3,3).cuda()iftorch.cuda.is_available()elsetorch.rand(3,3)print(f张量计算正常:{x x.T})# 这里容易踩坑显示CUDA可用但实际计算报错# 可能是驱动版本不匹配重装对应版本的CUDA Toolkit依赖管理requirements.txt不是万能的项目迁移时别直接pip install -r requirements.txt不同平台、不同CUDA版本需要的包可能不同。# 导出环境配置conda更准确condaenvexportenvironment.yml# 导入时指定渠道condaenvcreate-fenvironment.yml# pip导出的requirements.txt要手动处理torch# 把torch相关行改成条件安装在requirements.txt里这样写torch2.0.1 # 实际安装时根据平台替换 torchvision0.15.2 其他普通包版本号开发工具VS Code够用了新手不必追求复杂的IDEVS Code配Python插件足够。关键配置选择正确的Python解释器CtrlShiftP输入“Python: Select Interpreter”安装Jupyter插件跑代码片段终端一定要先激活conda环境再运行脚本个人经验包环境命名带版本号ai_env_py39_torch20比ai_env好用三个月后你还记得里面装的什么显卡内存小于8G慎玩大模型显存不够时错误信息千奇百怪先从MNIST这种小数据集开始conda和pip混用可以但要有顺序先用conda装核心包torch、tensorflow再用pip装小众包遇到版本冲突先降级别死磕最新版AI框架生态里“稳定”比“新”重要备份环境配置跑通的环境导出两份一份放项目根目录一份存网盘最后说个真事上周公司服务器升级一位同事的环境死活跑不起来。查了一下午发现是openssl版本太新torch 1.13不兼容。降级openssl影响其他服务。最后新建环境重装整套两小时搞定。有时候推倒重来比修修补补更快——这是环境配置教给我的第一课。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2487417.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!