Lora原理及实现浅析

news2026/5/19 18:17:48

Lora

什么是Lora

Lora的原始论文为《LoRA: Low-Rank Adaptation of Large Language Models》，翻译为中文为“大语言模型的低秩自适应”。最初是为了解决大型语言模在进行任务特定微调时消耗大量资源的问题；随后也用在了Diffusion等领域，用于对模型进行微调。总而言之，Lora是一种微调技术。

Lora是怎么实现的

原理

Lora的思想很简单，在原有权重的旁边加一个的分支。训练时冻结原有权重，只训练这个分支。然后将分支输出的结果与原有权重的输出结果相加即可。这么做的理论依据是：预训练模型拥有极小的内在维度(instrisic dimension)，即存在一个极低维度的参数，微调它和在全参数空间中微调能起到相同的效果。

Lora简要示意图

伪代码实现

假设我们有一个简单的模型，仅包含一个线性层：

import torch
import torch.nn as nn

# 原始 SimpleModel 定义
class SimpleModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(100, 50)  # 原始权重形状: (50, 100)

    def forward(self, x):
        return self.linear(x)

那么我们用最原始的手段添加Lora：

import torch
import torch.nn as nn

class SimpleModelWithLoRA(nn.Module):
    def __init__(self, rank=4):
        super().__init__()
        # 原始预训练层（冻结）
        self.linear = nn.Linear(100, 50)
        
        # 冻结原始参数
        for param in self.linear.parameters():
            param.requires_grad = False
        
        # LoRA 参数
        self.lora_A = nn.Parameter(torch.randn(50, rank))   # (out_dim, rank)
        self.lora_B = nn.Parameter(torch.randn(rank, 100))  # (rank, in_dim)

    def forward(self, x):
        # 原始输出
        original_output = self.linear(x)
        
        # LoRA 分支输出
        lora_output = x @ self.lora_B.t() @ self.lora_A.t()  # [batch, 100] -> [batch, 50]
        
        # 输出为两者的和
        return original_output + lora_output

可以看到，Lora的代码跟原始代码的主要区别仅在于：

在权重层面：

冻结原始参数
添加了两个线性层，分别用于将输出映射到rank维的中间结果，和将中间结果映射到输出

在推理层面：

计算Lora的输出结果
将两个计算结果相加

这就是Lora的实际计算过程了，就是在原有模型旁边加了个轻量化的分支而已。此外，由于矩阵运算的性质，我们还可以直接把训练好的权重加到原始权重上以提高计算效率：

import torch
import torch.nn as nn

# 应用了 LoRA 的 SimpleModel 定义
class SimpleModelWithLoRA(nn.Module):
    def __init__(self, rank=4):
        super().__init__()
        # 初始化原始线性层
        self.linear = nn.Linear(100, 50)  # 原始权重形状: (50, 100)
        
        # 冻结原始线性层的参数
        for param in self.linear.parameters():
            param.requires_grad = False
        
        # 添加 LoRA 矩阵 A 和 B
        self.A = nn.Parameter(torch.randn(50, rank))  # 形状: (50, rank)
        self.B = nn.Parameter(torch.randn(rank, 100)) # 形状: (rank, 100)

    def forward(self, x):
        # 计算 LoRA 修正项
        lora_term = self.A @ self.B  # 形状: (50, 100)
        
        # 将 LoRA 修正项加到原始权重上
        adapted_weight = self.linear.weight.data + lora_term
        
        # 使用适应后的权重进行计算
        output = nn.functional.linear(x, adapted_weight, self.linear.bias)
        return output

值得注意的是，是否将Lora权重与原始权重融合取决于是否需要更新lora权重。因为融合后的权重虽然能够提高计算效率，但是无法单独更新Lora了。

其他细节说明

其他微调方法

除了Lora，还有其他微调手段，下面简单列出，不再做进一步说明：

方法	描述	参数规模	灵活性	应用场景
全量微调（Full Fine-tuning）	修改全部参数	大	高	所有任务
Adapter Tuning	在层之间插入小型神经网络模块	小	中	模型嵌套结构支持时
Prefix Tuning / Prompt Tuning	修改输入提示向量	极小	中	NLP
LoRA	引入低秩矩阵进行参数增量更新	小	高	广泛适用