大模型学习笔记day2 LoRA微调

news2025/5/27 21:50:31

LORA的核心思想基准模型不进行变化,我额外引入一部分参数来做专属内容处理,同时加上原有模型的推理能力,这部分新增加的的内容就是要训练出来的参数矩阵

本征维度(Intrinsic Dimension):是指数据或空间中所需的最小维度,以便充分描述其中的结构或特征。换句话说,尽管数据可能存在于高维空间中,但其实际所包含的信息可能集中在一个更低维度的子空间内,本征维度就是描述这个低维子空间的维度。 

比如一个3*3的矩阵,可以表是成一个1*3的矩阵和3*1的矩阵的乘积,这里原本9个参数就变成了6个参数。节约了参数空间,由此,可以把上面的新增矩阵变成矩阵A和矩阵B的乘积。

lora配置

矩阵A和矩阵B分别为正态分布矩阵和一个全为零的矩阵。

  • A正态分布,B零矩阵
    ΔW = A×B = 随机矩阵×零矩阵 = 零矩阵
    初始阶段模型行为不变,不干扰预训练权重,训练从“零扰动”开始。

  • A和B均零矩阵
    ΔW = 零矩阵,梯度消失,无法更新参数。

  • A和B均正态分布
    ΔW = 随机矩阵×随机矩阵,初始扰动过大,破坏预训练权重,引入噪声,收敛困难。

梯度传播的数学分析

以简单线性层为例,输入为 xx,输出为 x⋅(W+ΔW)=xW+xABx⋅(W+ΔW)=xW+xAB。
损失函数为 LL,反向传播时:

  • 对B的梯度

    ∂L∂B=AT⋅∂L∂(xAB)⋅xT∂B∂L​=AT⋅∂(xAB)∂L​⋅xT

    若B初始化为零矩阵,但A为随机正态分布,则梯度 ∂L∂B∂B∂L​ 非零,B可更新。

  • 对A的梯度

    ∂L∂A=∂L∂(xAB)⋅xT⋅BT∂A∂L​=∂(xAB)∂L​⋅xT⋅BT

    若B初始化为零,初始时 ∂L∂A=0∂A∂L​=0,但随着B的更新,A的梯度逐渐非零。

具体示例对比

示例1:A和B均初始化为零矩阵
A = torch.zeros(in_dim, rank)  # 全零
B = torch.zeros(rank, out_dim)  # 全零
  • 前向传播:ΔW = A×B = 0 → 输出与原始模型一致。

  • 反向传播
    ∂L/∂B=AT⋅梯度=0  ∂B/∂L​=AT⋅梯度=0
    ∂L/∂A=梯度⋅BT=0  ∂A/∂L​=梯度⋅BT=0
    梯度消失,参数无法更新,训练停滞

示例2:A和B均用正态分布初始化
A = torch.randn(in_dim, rank) * 0.01  # 小标准差
B = torch.randn(rank, out_dim) * 0.01

前向传播:ΔW = A×B,元素可能较大(如秩为1时,ΔW的每个元素是A和B对应行列的点积)。
例如,若A和B的元素均服从 N(0,0.012)N(0,0.012),则ΔW的元素方差为 0.014×rank0.014×rank,当rank较大时,ΔW的扰动显著。
破坏预训练权重,模型需要重新学习,收敛困难。 

不同矩阵的作用

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2387044.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Maven-概述-介绍安装

目录 1.项目对象模型 2.依赖管理模型 3.仓库:用于存储资源,管理各种jar包 4.本地仓库路径 5.Maven配置本地仓库 5.1在Maven路径下新建文件夹用于本地仓库存储 5.2 复制本地仓库路径 5.3 找到配置文件路径,使用VSCode方式打开 5.4 新…

GitHub Page填写域名显示被占用

问题描述 在Github上使用github page搭建个人博客,在项目中的Settings->Pages页面里面填写个人的域名时,出现如下报错信息,显示域名被占用情况 The custom domain example.com is already taken. If you are the owner of this domain, c…

java高级 -动态代理

动态代理的概念 动态代理是一种在运行时生成代理对象的机制,无需手动编写代理类。 代理就类似于中介公司,为明星置办各种前期准备。例如歌声需要开演唱会唱歌,那么此时就需要代理对象进行置办场地,设备,然后明星只需要…

机器学习算法:线性回归

1. 基础概念 线性回归是一种用于建模连续型目标变量(如价格、销量、温度)与一个或多个特征变量(如面积、广告投入、时间)之间线性关系的统计方法。 核心思想:找到一条直线(或超平面)&#xff0…

常见小问题(Open Folder as PyCharm Project)

1.删除pycharm鼠标右键快捷键打开项目 winr键打开,输入regedit,运行注册器 找到下面的路径:计算机\HKEY_CLASSES_ROOT\Directory\Background\shell\PyCharm 删除即可

第四十四节:目标检测与跟踪-模板匹配

一、引言 模板匹配的核心思想是通过在输入图像中搜索与预定义模板最相似的区域来定位目标。这种方法计算效率高、实现简单,特别适用于目标外观变化不大且背景相对简单的场景。本文将深入探讨模板匹配的原理、OpenCV中的实现方法、优化技巧以及实际应用案例。 二、模板匹配基础…

vue+ThreeJs 创建过渡圆圈效果

嗨,我是小路。今天主要和大家分享的主题是“vueThreeJs 创建过渡圆圈效果”。 今天在做着色器过渡效果练习,发现出现了很多新的函数,这些都超出了js之外,需要更多的掌握和学习。以下是自己的复盘和梳理。 1.获取距离 定…

MySQL:12_视图

视图 跟事务里讲的视图没有任何关系 视图是一个虚拟表,其内容由查询定义。同真实的表一样,视图包含一系列带有名称的列和行数据。视图的数据变化会影响到基表,基表的数据变化也会影响到视图。 一.基本使用 创建视图 create view 视图名 …

win11+vs2022 安装opencv 4.11.0图解教程

1. 下载opencv opencv官网下载地址:Releases - OpenCV 2. 双击运行该exe,即可进行安装,安装文件夹可自行选择 安装后目录如下: 3. 配置环境变量 使用win键搜索环境变量,选中系统变量中的Path,然后点击编辑…

n8n 读写本地文件

1.Docker Desktop 创建容器 docker run -d --name n8n -p 5566:5678 -v D:\docker\n8n_data:/home/node/.n8n -v D:\docker\n8n_files:/home/node/Files n8nio/n8n:latest 参数说明: 1.-d :表示以 detached 模式运行容器(后台运行) 2.--name n8n :指定容器名称为n8n。 3.-p 55…

LlamaFirewall:开源框架助力检测与缓解AI核心安全风险

LlamaFirewall 是一款面向大语言模型(LLM)应用的系统级安全框架,采用模块化设计支持分层自适应防御。该框架旨在缓解各类AI代理安全风险,包括越狱攻击(jailbreaking)、间接提示注入(indirect pr…

java基础知识回顾3(可用于Java基础速通)考前,面试前均可用!

目录 一、基本算数运算符 二、自增自减运算符 三、赋值运算符 四、关系运算符 五、逻辑运算符 六、三元运算符 七、 运算符的优先级 八、小案例:在程序中接收用户通过键盘输入的数据 声明:本文章根据黑马程序员b站教学视频做的笔记,可…

电脑无法识别打印机usb设备怎么办 一键解决!

在当今高度数字化的工作环境中,打印机作为重要的办公设备之一,承担着文件打印、扫描等关键任务。然而,有时我们可能会遇到一个令人头疼的问题——电脑无法识别通过USB连接的打印机。这种情况不仅会影响工作效率,还可能打断正常的工…

Elasticsearch Synthetic _source

_source 字段包含索引时传入的原始 JSON 文档体。_source 字段本身不被索引(因此不可搜索),但会被存储,以便在执行获取请求(如 get 或 search)时返回。 如果磁盘使用很重要,可以考虑以下选项&a…

C++ -- vector

vector 1. 关于vector1.1 对比原生数组1.2 vector的核心优势 2. 扩容2.1 底层实现2.2 扩容过程 3. 构造函数4. 接口模拟实现4.1 实现迭代器4.2 扩容4.3 重载[]4.4 插入和删除4.5 构造函数和析构函数 5. 迭代器失效5.1 扩容后失效5.2 越界失效 6. 深浅拷贝 1. 关于vector 1.1 对…

深入研究Azure 容器网络接口 (CNI) overlay

启用cni overlay 在通过portal创建aks的时候,在networking配置上,选中下面的选项即可启用。 通过CLI创建AKS 要创建具有 CNI 覆盖网络的 AKS 群集,需要在创建群集时指定 --network-plugin azure 和 --network-plugin-mode 覆盖选项。 还需要指定 --pod-cidr 选项来定义群…

Python打卡第37天

浙大疏锦行 早停策略和模型权重的保存 作业:对信贷数据集训练后保存权重,加载权重后继续训练50轮,并采取早停策略 import torch import torch.nn as nn import pandas as pd import matplotlib.pyplot as plt import torch.optim as optim fr…

使用 OpenCV 构建稳定的多面镜片墙效果(镜面反射 + Delaunay 分块)

✨ 效果概览 我们将实现一种视觉效果,模拟由许多小镜面拼接而成的“镜子墙”。每个镜面是一个三角形区域,其内容做镜像反射(如水平翻转),在视频中形成奇特的万花筒、哈哈镜、空间折叠感。 使用 OpenCV 实现“随机镜面…

HTTP协议版本的发展(HTTP/0.9、1.0、1.1、2、3)

目录 HTTP协议层次图 HTTP/0.9 例子 HTTP/1.0 Content-Type 字段 Content-Encoding 字段 例子 1.0版本存在的问题:短链接、队头阻塞 HTTP/1.1 Host字段 Content-Length 字段 分块传输编码 1.1版本存在的问题 HTTP/2 HTTP/2数据传输 2版本存在的问题…

零基础设计模式——结构型模式 - 桥接模式

第三部分:结构型模式 - 桥接模式 (Bridge Pattern) 在学习了适配器模式如何解决接口不兼容问题后,我们来看看桥接模式。桥接模式是一种更侧重于系统设计的模式,它旨在将抽象部分与其实现部分分离,使它们可以独立地变化。 核心思…