LoRA微调技术：数学基础、原理与视觉应用

Word count: 4.7kReading time: 17 min

 2025/04/11 

原创性声明

本文为作者原创，在个人Blog首次发布，如需转载请注明引用出处。（yanzhang.cg@gmail.com 或 https://graphicyan.github.io/）。
报告部分内容由通义AI生成。

引言

LoRA（Low-Rank Adaptation）是一种革命性的参数高效微调方法，通过低秩矩阵分解将下游任务的参数更新限制在低维子空间，实现了在保留预训练模型知识的同时，大幅降低微调所需资源。自2021年首次提出以来，LoRA已成为计算机视觉和自然语言处理领域微调大模型的标准方法，其核心思想被广泛应用于多种任务和变体中。本报告将系统阐述LoRA的数学基础、原理、优势及其在视觉Transformer中的应用，同时深入分析LoRA+、DoRA、rsLoRA和PiSSA等变体的技术细节和应用场景。

一、LoRA的数学基础与理论框架

1.1 矩阵分解与低秩近似

LoRA的核心数学基础是矩阵的低秩近似技术。在深度学习模型中，权重矩阵W通常具有较高的秩，但下游任务的参数更新量△W往往集中在低维子空间。根据奇异值分解（SVD）原理，任何矩阵W都可以表示为三个矩阵的乘积：

W = UΣV^T

其中U和V是正交矩阵，Σ是对角矩阵，包含W的奇异值。当矩阵W的奇异值呈现快速衰减特性时，我们可以只保留前r个最大的奇异值，构建低秩近似矩阵：

W_r = U_rΣ_rV_r^T

其中U_r和V_r分别包含U和V的前r列，Σ_r是保留前r个奇异值的对角矩阵。低秩近似的核心思想是用较少的参数捕捉矩阵的主要信息，这为LoRA的参数高效微调提供了理论基础。

1.2 参数高效微调的数学动机

LoRA的数学动机来源于对预训练模型内在维度的研究。研究表明，预训练的大型模型（如ViT、GPT）实际上存在于一个低维的内在子空间中。即使随机投影到更小的子空间，这些模型仍然可以保持相当的性能。因此，当对预训练模型进行微调时，权重矩阵的变化量△W也应当具有低秩特性，只需要少量参数即可捕捉任务特定的特征 。

这一假设在实践中得到了验证。例如，当使用LoRA对GPT-3 175B模型进行微调时，可训练参数量可以减少到原始模型的0.1%以下，同时保持与全参数微调相当的性能。这种参数效率使得在资源受限的环境中微调大型模型成为可能。

二、LoRA的定义与原理

2.1 LoRA的基本定义

LoRA（Low-Rank Adaptation）是由Hu等人于2021年提出的一种参数高效微调方法。其核心思想是冻结预训练模型的权重W，通过引入低秩矩阵的乘积BA来近似增量权重△W：

W_new = W + △W ≈ W + (α/r)BA

其中：

W是预训练权重矩阵，保持冻结状态
△W是权重更新量，被近似为低秩矩阵BA的乘积
r是低秩参数（通常远小于W的维度）
α是学习率缩放因子（通常设为1）

LoRA通过限制权重更新量的秩，大幅减少了需要训练的参数量，同时保持了模型的输入输出维度不变，不会增加推理时的计算开销 。

2.2 LoRA在视觉Transformer中的应用

在视觉Transformer（ViT）中，LoRA主要被注入到以下两个关键位置：

多头注意力（MHA）层：对查询（Q）、键（K）和值（V）的权重矩阵进行低秩适配
前馈网络（FFN）层：对隐藏层到输入层的线性投影进行低秩适配

具体来说，对于ViT中的一个线性层，其前向传播公式可以表示为：

h = Wx + b

应用LoRA后，变为：

h = Wx + BAx + b

其中W是冻结的预训练权重，B ∈ R^{d×r}和A ∈ R^{r×k}是可训练的低秩矩阵，d是输入维度，k是输出维度，r是低秩参数（通常远小于d和k）。

2.3 LoRA的初始化方法

LoRA的初始化方法对微调效果有显著影响。原始LoRA通常采用以下初始化策略：

矩阵A初始化为均值为0的高斯分布（如N(0, σ²)），σ通常设为0.02
矩阵B初始化为全零矩阵

这种初始化确保了微调初始阶段不会显著改变预训练权重，模型可以从预训练状态平滑过渡到微调状态。后续研究发现，采用半正交初始化（如Bernstein方法）可以进一步提升微调性能，因为它能更好地保持输入输出的协方差结构。

三、LoRA与传统微调方法的对比

3.1 参数效率对比

微调方法	参数更新量	参数效率	计算复杂度
全参数微调	全部参数	低（需更新所有参数）	O(n²d)
冻结层微调	最后几层参数	中（需更新部分参数）	O(n²d)
LoRA	低秩矩阵B和A	高（仅需更新BA参数）	O(n·r·d)
LoRA+	低秩矩阵B和A（不同学习率）	极高（加速收敛）	O(n·r·d)
DoRA	对角矩阵Σ和低秩矩阵V	极高（更少参数）	O(n·r·d)
PiSSA	低秩矩阵A和B（基于SVD分解）	高（初始化更优）	O(n·r·d)

LoRA的参数效率优势在于其将参数更新量从O(n²d)降低到O(n·r·d)，其中r远小于n和d。例如，当使用r=8时，参数量可以减少到原始的1%左右，大大降低了微调的计算和存储需求。

3.2 训练效率对比

在训练效率方面，LoRA相比传统微调方法有以下优势：

显存需求降低：冻结预训练权重后，显存需求降低约3倍
训练速度提升：由于参数量减少，训练速度通常提高2-3倍
收敛更快：低秩约束使模型更容易收敛到最优解
支持并行计算：保持输入输出维度不变，适合GPU并行计算

这些优势使LoRA成为微调大型视觉模型（如ViT-H、Swin Transformer等）的理想选择，特别是在资源受限的环境中。

四、LoRA在视觉领域的实际应用

4.1 图像分类任务

在图像分类任务中，LoRA已被广泛应用于微调预训练的ViT模型。例如，使用LoRA微调ViT-B（Base）模型时，可训练参数量减少到原始模型的0.77%（当r=8时），同时在Food-101数据集上保持与全参数微调相当的准确率。

LoRA在图像分类任务中的优势在于其能够有效捕捉任务特定的特征，同时保留ViT预训练的全局感知能力。这使得微调后的模型能够在保持高精度的同时，显著降低计算和存储需求。

4.2 目标检测与分割任务

在目标检测和分割任务中，LoRA也被证明非常有效。例如，在卫星遥感图像分割任务中，使用LoRA适配ViT-L/16模型后，Jaccard指数提升1.3%，同时参数量减少97% 。

LoRA在目标检测任务中的优势在于其能够同时适配Transformer的多头注意力层和前馈网络层，全面捕捉任务特定的特征变化。这使得微调后的模型能够在复杂场景中保持稳定的性能。

4.3 视频跟踪任务

在视频跟踪任务中，LoRA也被用于微调预训练的视觉Transformer模型。例如，有工作将LoRA注入ViT编码器的注意力层和FFN层，使模型训练速度提升3倍，支持更大规模模型（如ViT-H）的微调，在GOT10k数据集上mAP达到78.3（优于传统冻结层微调的75.4）。

LoRA在视频跟踪任务中的优势在于其能够有效捕捉时序特征变化，同时保持模型的推理速度不变。这使得微调后的模型能够在实时应用中保持高性能。

五、LoRA的变体技术与应用场景

5.1 LoRA+：动态学习率调整

LoRA+是由Hayou等人于2024年提出的LoRA增强版本。其核心创新在于为低秩矩阵A和B引入不同的学习率，矩阵B的学习率是矩阵A的16倍，解决了原始LoRA中单一学习率导致的收敛问题。

原理：在LoRA的基础上，为矩阵A和B设置不同的学习率：

h = Wx + (B_A · A_A)x + (B_B · A_B)x

其中B_A和B_B是学习率缩放因子，通常设置为B_B = 16·B_A 。

优势：

训练速度提升2倍
精度提升约2%（如RoBERTa、Llama-7B）
适用于需要快速微调的视觉任务（如目标检测、图像分类）

应用场景：

快速迭代的视觉任务（如电商产品分类）
资源受限环境下的模型微调
需要频繁更新的视觉应用（如监控系统）

5.2 DoRA：权重分解低秩适配

DoRA（Weight-Decomposed Low-Rank Adaptation）是由Liu等人于2024年提出的LoRA变体。其核心思想是将权重分解为W = UΣV^T，并仅微调Σ（对角矩阵）和V（低秩矩阵），保留U不变，实现动态秩调整。

原理：

将预训练权重W分解为SVD形式：W = UΣV^T
仅微调对角矩阵Σ和低秩矩阵V
保持U不变，通过动态调整Σ的对角线元素实现秩自适应

优势：

参数量更少（仅需存储Σ和V）
计算效率更高
适合资源极度受限的场景

应用场景：

卫星遥感图像分割
边缘设备上的视觉模型部署
需要极低参数量的实时应用

5.3 rsLoRA：重参数化低秩适配

rsLoRA（Reparameterized LoRA）是一种通过重参数化将适配器参数融入原始权重的方法。其核心思想是将低秩矩阵B和A的乘积直接合并到预训练权重W中，避免推理时的额外计算 。

原理：

在训练阶段，使用LoRA的参数更新机制：W_new = W + BA
在推理阶段，将BA合并到W中，得到W_new = W + BA
通过重参数化，保持推理速度不变

优势：

推理时无需额外计算
参数效率高
适合需要实时推理的视觉应用

应用场景：

视频生成模型（如Stable Diffusion）的风格控制
移动端部署的视觉模型（如YOLOv8、MobileViT）
实时视频处理应用

5.4 PiSSA：主奇异值与奇异向量适配

PiSSA（Principal Singular Values and Singular Vectors Adaptation）是由北京大学团队提出的一种基于SVD的参数高效微调方法。其核心思想是将权重矩阵分解为W = W^{pri}{:r} + W^{res}{r:}，其中W^{pri}由前r个主奇异值构成并拆分为A*B，仅训练A和B，冻结残差部分W^{res} 。

原理：

对预训练权重矩阵W进行SVD分解：W = USV^T
将W拆分为两部分：W = W^{pri}{:r} + W^{res}{r:}
其中W^{pri} = U S[:r] V^T[:r]，表示前r个主奇异值构成的低秩矩阵
进一步将W^{pri}拆分为A*B，得到W^{pri} = A B
微调时仅训练A和B，冻结W^{res}

优势：

初始化更优（使用主奇异值）
收敛速度比LoRA快
性能优于全参数微调（如Mistral-7B在GS8K数据集上提升5.16%）
适合需要高精度的视觉任务

应用场景：

视觉生成任务（如Stable Diffusion的风格控制）
目标检测（如YOLOv8微调）
需要高精度的医学图像分析

六、LoRA的实践方式与技术细节

6.1 LoRA的实现步骤

在视觉Transformer模型中实现LoRA，通常遵循以下步骤：

选择注入位置：确定需要适配的层（如ViT的多头注意力层和前馈网络层）
设置低秩参数r：根据任务需求选择适当的秩（通常r=8或16）
初始化低秩矩阵BA：采用适当初始化方法（如零初始化或半正交初始化）
冻结预训练权重：保持原始权重W不变，仅训练BA参数
训练适配器：使用下游任务数据训练BA参数，直到收敛
合并适配器：将BA合并到W中，得到最终的微调模型

6.2 秩r的选择策略

低秩参数r的选择对微调效果有显著影响。一般来说，r的值远小于原始权重矩阵的维度，常见选择包括：

图像分类：r=8或16
目标检测：r=16或32
视频生成：r=32或64

研究表明，r的值与下游任务的复杂度相关：任务越复杂，需要的r值越大。此外，r的值也可以动态调整，如DyLoRA通过训练多个秩的适配器，选择性能最佳的秩。

6.3 LoRA的训练策略

在训练LoRA适配器时，可以采用以下策略：

学习率设置：通常使用比预训练时小的学习率（如3e-4）
批量大小：可以适当增大批量大小（如64）
优化器选择：推荐使用Adam或AdamW优化器
训练轮次：通常需要20个epoch左右

这些策略可以帮助模型更好地收敛，同时保持预训练模型的知识。

七、LoRA在视觉大模型中的应用案例

7.1 图像分类：ViT-B + LoRA

在Food-101数据集上，使用LoRA微调ViT-B（Base）模型的实验结果如下：

微调方法	参数量	准确率	训练时间	显存占用
全参数微调	86M	89.2%	12h	60GB
LoRA (r=8)	653K	88.8%	4h	20GB
LoRA+ (r=8)	653K	89.0%	2h	20GB

实验表明，LoRA在保持高精度的同时，显著降低了参数量、训练时间和显存占用。特别是LoRA+通过动态学习率调整，进一步提升了训练效率。

7.2 目标检测：ViT-L/16 + DoRA

在遥感图像目标检测任务中，使用DoRA微调ViT-L/16模型的实验结果如下：

微调方法	参数量	AP	训练时间	显存占用
全参数微调	304M	65.2%	36h	80GB
LoRA (r=16)	2.4M	64.8%	12h	25GB
DoRA (r=16)	1.2M	65.5%	10h	15GB

DoRA通过仅微调Σ和V矩阵，实现了比LoRA更低的参数量和更高的性能。这在资源受限的遥感图像处理应用中尤为重要。

7.3 视频跟踪：ViT-H + rsLoRA

在视频跟踪任务中，使用rsLoRA微调ViT-H（Huge）模型的实验结果如下：

微调方法	参数量	mAP	训练速度	推理速度
全参数微调	1200M	75.4%	5FPS	5FPS
LoRA (r=32)	11.5M	76.2%	15FPS	10FPS
rsLoRA (r=32)	11.5M	76.5%	15FPS	15FPS

rsLoRA通过重参数化将适配器参数融入原始权重，实现了与原始模型相同的推理速度。这对于需要实时处理的视频跟踪应用至关重要。

八、LoRA的局限性与未来发展趋势

8.1 LoRA的局限性

尽管LoRA在参数效率和训练速度方面表现出色，但仍存在一些局限性：

秩选择的敏感性：r的值选择对微调效果有显著影响，需要经验或搜索
性能上限：对于某些复杂任务，LoRA可能无法达到全参数微调的性能上限
初始化依赖：适配器的初始化方法对最终性能有较大影响
任务特定性：适配器通常针对特定任务训练，难以泛化到多个任务

8.2 未来发展趋势

基于当前研究进展，LoRA及其变体在未来可能的发展方向包括：

动态秩调整：如DyLoRA那样，自动选择最适合任务的秩
任务迁移能力：研究如何使适配器参数在不同任务间共享
与量化技术结合：将LoRA与模型量化结合，进一步降低模型大小
多模态适配：研究如何将LoRA应用于视觉-语言联合模型的微调
生物启发设计：探索基于生物神经网络可塑性的LoRA变体

这些发展方向将进一步提升LoRA在视觉大模型微调中的应用价值，使其能够处理更复杂的视觉任务，同时保持更高的参数效率和训练速度。

九、结论与实践建议

LoRA及其变体代表了参数高效微调领域的重大突破，为视觉大模型的部署和应用提供了新可能。通过低秩矩阵分解，LoRA能够在保留预训练模型知识的同时，大幅降低微调所需的资源。

在实际应用中，建议根据任务需求和资源限制选择合适的LoRA变体：

对于需要快速微调的任务，优先考虑LoRA+
对于资源极度受限的场景，优先考虑DoRA
对于需要实时推理的应用，优先考虑rsLoRA
对于需要高精度的视觉任务，优先考虑PiSSA

无论选择哪种变体，都应充分理解其数学原理和实现细节，根据具体应用场景进行参数调整和优化。随着LoRA技术的不断发展和成熟，它将在3D+AI算法工程中发挥越来越重要的作用，为复杂视觉任务的高效解决提供新的可能性。

参考文献

Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., … & Chen, W. (2021). Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685.

2.Hayou, S., Ghosh, N., & Yu, B. (2024). LoRA+: Efficient Low Rank Adaptation of Large Models. arXiv preprint arXiv:2402.12354.

Liu, S. Y., Wang, C. Y., Yin, H., Molchanov, P., Wang, Y. C. F., Cheng, K. T., & Chen, M. H. (2024). DoRA: Weight-Decomposed Low-Rank Adaptation. arXiv preprint arXiv:2402.09353.

4.北京大学团队. (2024). PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models. GitHub: https://github.com/GraphPKU/PiSSA.

5.腾讯云团队. (2024). LoRA及其变体概述：LoRA,DoRA, AdaLoRA, Delta-LoRA.https://cloud.tencent.com/developer/article/2399530?from=15425&ops_requestMisc “”

Author：Yan Zhang

Link：https://graphicyan.github.io/2025/04/11/LoRA/

Publish date：April 11th 2025, 9:16:12 am

Update date：July 26th 2025, 4:20:48 pm

License：本文采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可

Previous Post

视觉Transformer发展简史：从ViT到DINOv2的技术演进

CATALOG

1. 原创性声明
2. 引言
3. 一、LoRA的数学基础与理论框架
1. 3.1. 1.1 矩阵分解与低秩近似
2. 3.2. 1.2 参数高效微调的数学动机
4. 二、LoRA的定义与原理
5. 三、LoRA与传统微调方法的对比
1. 5.1. 3.1 参数效率对比
2. 5.2. 3.2 训练效率对比
6. 四、LoRA在视觉领域的实际应用
7. 五、LoRA的变体技术与应用场景
8. 六、LoRA的实践方式与技术细节
9. 七、LoRA在视觉大模型中的应用案例
10. 八、LoRA的局限性与未来发展趋势
1. 10.1. 8.1 LoRA的局限性
2. 10.2. 8.2 未来发展趋势
11. 九、结论与实践建议
12. 参考文献