Linux 安装 pytorch+cuda+gpu 大模型开发环境过程记录

news2025/5/22 17:56:06

Linux 安装 pytorch+cuda+gpu 大模型开发环境过程记录

2025-05-17
本文可用于生产环境,用于大模型训练开发运行。

1. 确定 OS 架构

# cat /etc/os-release
NAME="Ubuntu"
VERSION="20.04.6 LTS (Focal Fossa)"
# uname -m
x86_64

2. 查看磁盘空间

# df -h /llm

因为系统已有 Anaconda3 和 minianaconda3,但是已有的这些环境存在问题。
为不破坏这些环境,我重新安装一个 Anaconda3,与已有的共存,切记不可自动设置。

3. 安装 Anaconda3

# cd /llm/Downloads/
# wget -c https://mirrors.ustc.edu.cn/anaconda/archive/Anaconda3-2024.10-1-Linux-x86_64.sh --no-check-certificate
# Anaconda3-2024.10-1-Linux-x86_64.sh

指定安装目录:/llm/huggingface/anaconda3

[no]不要配置: 直接回车

# cd ~/Workspace
# ln -s /llm/huggingface huggingface
# ln -s /llm/Downloads Downloads

以后下面的目录等效:

~/Workspace/huggingface -> /llm/huggingface
~/Workspace/Downloads -> /llm/Downloads
测试Anaconda3安装是否正确:
# conda deactivate
# source ~/Workspace/huggingface/anaconda3/etc/profile.d/conda.sh
# export PATH="~/Workspace/huggingface/anaconda3/bin:$PATH"
# conda activate base
# conda deactivate
# which conda

务必显示为安装的路径:/llm/huggingface/anaconda3/bin/conda
然后执行下面的命令创建虚拟环境:pytorch_env
# conda create -n pytorch_env python=3.10

以后全部操作在 pytorch_env 中进行!

4. 安装 pytorch

查看系统 cuda 版本,安装与之匹配的 pytorch:2.6.0

安装 CUDA + cuDNN 的过程(略)

# nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2024 NVIDIA Corporation
Built on Thu_Mar_28_02:18:24_PDT_2024
Cuda compilation tools, release 12.4, V12.4.131
Build cuda_12.4.r12.4/compiler.34097967_0

在下面的网站找到 CUDA 12.4 安装链接:

https://pytorch.org/get-started/previous-versions/

# CUDA 12.4
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
开始安装 pytorch cuda 版本:
# conda deactivate
# source ~/Workspace/huggingface/anaconda3/etc/profile.d/conda.sh
# export PATH="~/Workspace/huggingface/anaconda3/bin:$PATH"
# conda env list
base
pytorch_env
# conda activate pytorch_env
(pytorch_env) # python
Python 3.10.17 | ...

(pytorch_env) # pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
测试 pytorch 是否安装成功:
(pytorch_env) # python
Python 3.10.17 
>>> import torch
>>> print(torch.__version__)
2.6.0+cu124
>>> print(torch.cuda.is_available())
True
>>> print(torch.cuda.get_device_name(0))
NVIDIA GeForce RTX 3090

5. 安装 huggingface

在安装好 PyTorch 后,安装 Hugging Face 的 transformers 库(核心工具库)和其他相关依赖的步骤如下。

创建环境脚本: /llm/huggingface/pytorch_env.sh
#!/bin/bash
# 2025-05-19, zhangliang
# source pytorch_env.sh
#
export HF_HUB_DISABLE_SYMLINKS_WARNING=1
export HF_ENDPOINT="https://hf-mirror.com"
export HF_HOME=/llm/huggingface
export HF_MODELS=/llm/huggingface/models
export ANACONDA3_HOME=/llm/huggingface/anaconda3
source "$ANACONDA3_HOME/etc/profile.d/conda.sh"
conda activate pytorch_env

然后执行:

# source /llm/huggingface/pytorch_env.sh
(pytorch_env) # pip install transformers datasets tokenizers accelerate peft safetensors
(pytorch_env) # pip install soundfile librosa Pillow huggingface_hub python-dotenv bitsandbytes
(pytorch_env) # pip install emoji opencc-python-reimplemented evaluate
写一个测试文件:huggingface_chk.py:
    # huggingface_chk.py
    # 基础库
    import os, sys, yaml, datetime
    import evaluate       # 评估指标计算
    import pandas as pd   # 数据处理
    import numpy as np    # 数值计算
    import torch          # PyTorch 深度学习框架
    import transformers   # Hugging Face 模型库

    import re, emoji

    from typing import Optional, Union

    # PyTorch 组件
    from torch import nn
    from torch.amp import GradScaler, autocast                        # 混合精度训练
    from torch.utils.data import Dataset as TorchDataset, DataLoader  # 数据加载
    from torch.optim import AdamW         # 优化器

    # 数据集处理
    from datasets import Dataset          # Hugging Face 数据集格式

    # 中文简繁体转换
    from opencc import OpenCC

    # 模型量化
    from bitsandbytes.nn import Int8Params

    # 参数高效微调 (PEFT)
    from peft import get_peft_model, LoraConfig

    from sklearn.preprocessing import MultiLabelBinarizer
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import f1_score

    # Transformers 组件
    from transformers import (
        AutoTokenizer,                     # 自动分词器
        AutoModelForSequenceClassification,# 序列分类模型
        AutoModelForSeq2SeqLM,
        TrainingArguments,                 # 训练参数配置
        BitsAndBytesConfig,                # 量化配置
        Trainer,                           # 训练器
        DataCollatorWithPadding,           # 数据填充对齐
        EvalPrediction,                    # 评估预测对象
        pipeline                           # 推理管道
    )

    #########################################################
    print("transformers version:", transformers.__version__)
    print("torch version:", torch.__version__)

    # 检查 CUDA 可用性
    if torch.cuda.is_available():
        print("cuda version=", torch.version.cuda)
        print("torch using GPU:", torch.cuda.get_device_name(0))
    else:
        raise RuntimeError("CUDA 不可用,请检查安装!")

    # 环境路径配置
    print("HF_ENDPOINT=", os.environ["HF_ENDPOINT"])

    # hf 主目录。下载缓存目录自动在: $HF_HOME/hub
    print("HF_HOME=", os.environ["HF_HOME"])

    # 模型保存的本地目录
    print("HF_MODELS=", os.environ["HF_MODELS"])
    print("ANACONDA3_HOME=", os.environ["ANACONDA3_HOME"])
    print("HF_HUB_DISABLE_SYMLINKS_WARNING=",  os.environ["HF_HUB_DISABLE_SYMLINKS_WARNING"])
    print("Check huggingface success.")
执行环境测试 (以后的py程序完全按此过程执行):
# source /llm/huggingface/pytorch_env.sh
(pytorch_env) # python ./huggingface_chk.py

transformers version: 4.51.3
torch version: 2.6.0+cu124
cuda version= 12.4
torch using GPU: NVIDIA GeForce RTX 3090
HF_ENDPOINT= https://hf-mirror.com
HF_HOME= /llm/huggingface
HF_MODELS= /llm/huggingface/models
ANACONDA3_HOME= /llm/huggingface/anaconda3
HF_HUB_DISABLE_SYMLINKS_WARNING= 1
Check huggingface success.

完毕。开始你的大模型开发之旅吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2383291.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

局部放大maya的视图HUD文字大小的方法

一、问题描述: 有网友问:有办法局部放大maya的字体吗比如hud中currenttime打开之后画面右下角有个frame 想放大一下能做到吗? 在 Maya 中,可以通过自定义 HUD(Heads-Up Display)元素的字体大小来局部放大特…

初识Linux · NAT 内网穿透 内网打洞 代理

目录 前言: 内网穿透和打洞 NAPT表 内网穿透 内网打洞 正向/反向代理 前言: 本文算是网络原理的最后一点补充,为什么说是补充呢,因为我们在前面第一次介绍NAT的时候详细介绍的是报文从子网到公网,却没有介绍报文…

STM32接收红外遥控器的遥控信号

经过几天早晨的学习,终于把遥控器的红外信号给搞通了,特此记录一下;其实说白了,红外遥控就是高低电平的信号,用时间来区分是二进制的0还是1;然后把这些0或1,在组装成一个32位的数基本就算是完事…

Redis从入门到实战 - 高级篇(下)

一、Redis键值设计 1. 优雅的key结构 Redis的Key虽然可以自定义,但最好遵循下面几个最佳实践约定: 遵循基本格式:[业务名称]:[数据名]:[id]长度不超过44字节不包含特殊字符 例如:我们的登录业务,保存用户信息&…

GUI实验

题目: 编程包含一个标签和一个按钮,单击按钮时,标签的内容在"你好"和"再见"之间切换。 分析: 导入所需的Java库:程序使用了 javax.swing 包中的一些类来创建图形用户界面。 创建一个 JFrame 对象…

量子计算 | 量子密码学的挑战和机遇

量子计算在密码学中的应用现主要体现在对现有加密算法的威胁上。最著名的例子是Shor算法,该算法能够在多项式时间内分解大整数,从而威胁到基于大数分解的加密算法,如RSA加密。此外,量子计算还可以加速某些类型的密码分析&#xff…

分享一些多模态文档解析思路

多模态文档解析思路小记 作者:Arlene 原文:https://zhuanlan.zhihu.com/p/1905635679293122466 多模态文档解析内容涉及:文本、表格和图片 解析思路v1 基于mineru框架对pdf文件进行初解析 其具备较完整的布局识别和内容识别,并将…

AI知识梳理——RAG、Agent、ReAct、LangChain、LangGraph、MCP、Function Calling、JSON-RPC

AI技术I AI技术II RAG 📌 高度凝练表达 RAG (检索增强生成)是一种结合信息检索与生成式人工智能的技术框架,旨在提升大型语言模型(LLM)的输出准确性和实用性。通过在生成响应前引入外部知识库的信息&#…

【实用教程】如何快速搭建一套私有的埋点系统?

这篇教程将基于开源项目-ClkLog,教大家快速搭建一套自有的埋点系统,从0开始完成数据采集、分析与展示,全流程掌控用户行为数据。 ClkLog是一款支持私有化部署的全开源用户行为数据采集与分析系统,兼容Web、App、小程序多端埋点&am…

深入解析 Uniswap:自动做市商模型的数学推导与智能合约架构

目录 1. 自动做市商(AMM)模型的数学推导1.1 恒定乘积公式推导1.2 价格影响与滑点 2. Uniswap 智能合约架构解析2.1 核心合约(Core)2.1.1 工厂合约(Factory)2.1.2 交易对合约(Pair) 2…

React 19版本refs也支持清理函数了。

文章目录 前言一、refs 支持清理函数二、案例演示1.useEffect写法2.React 19改进 的ref写法 总结 前言 React 19版本发布了ref支持清理函数了,这样就可以达到useEffect一样的效果了。为啥需要清理函数呢,这是因为节约内存。 清理事件监听(避…

阿尔泰科技助力电厂——520为爱发电!

当城市的霓虹在暮色中亮起,当千万个家庭在温暖中共享天伦,总有一群默默的 "光明守护者" 在幕后坚守 —— 它们是为城市输送能量的电厂,更是以科技赋能电力行业的阿尔泰科技。值此 520 爱意满满的日子,阿尔泰科技用硬核技…

C#语法篇 :基类子类转换,成员变化情况

在C#中,会有从子类对象到基类对象的转换,这属于C#中的向上扩容,一般可以默认转换。 方法的转换 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;namespace ex3._4 …

【漫话机器学习系列】264.内距(又称四分位差)Interquartile Range

深入理解内距(Interquartile Range,IQR)——数据分析中的异常值利器 在日常的数据分析中,我们经常需要识别和处理异常值(Outliers),而内距(Interquartile Range,简称 IQR…

海外盲盒系统开发:重构全球消费体验的科技引擎

当盲盒文化席卷全球,海外盲盒系统开发已成为重构消费体验的核心赛道。数据显示,2025年全球盲盒市场规模突破120亿,东南亚市场年增长率达4540。我们开发的海外盲盒系统,以技术创新为驱动,打造覆盖全链路的全球化解决方案…

高噪声下扩展边缘检测算子对检测边缘的影响

目录 一、常见的边缘检测算子 二、扩展边缘检测算子对检测边缘的影响 三、结论 一、常见的边缘检测算子 Sobel 算子: Prewitt算子;

vuejs处理后端返回数字类型精度丢失问题

标题问题描述 后端返回数据有5.00和3.30这种数据,但是前端展示的时候返回对应分别为5和3.0,小数点后0都丢失了。 接口返回数据展示network-Response: 接口返回数据展示network-Preview: 错误数据效果展示 发现问题 浏览器接口…

mysql数据库-中间件MyCat

1. MyCat简介 在整个 IT 系统架构中,数据库是非常重要,通常又是访问压力较大的一个服务,除了在程序开发的本身做优化,如: SQL 语句优化、代码优化,数据库的处理本身优化也是非常重要的。主从、热备、分表分…

手搓四人麻将程序

一、麻将牌的表示 在麻将游戏中,总共有一百四十四张牌,这些牌被分为多个类别,每个类别又包含了不同的牌型。具体来说,麻将牌主要包括序数牌、字牌和花牌三大类。序数牌中,包含有万子、条子和筒子,每种花色…

PotPlayer 安装 madVR、LAV Filters 以提升解码能力和视频音频效果

PotPlayer自带的解码器并不是最好,如下两张截图都是出自 TOP GUN: Maverick 较暗、灰蒙蒙的一张,是安装插件之前明亮的一张,是安装插件之后 详细安装参考 https://www.bilibili.com/video/BV1UV5qzuE74?spm_id_from333.788.videopod.sectio…