视觉Transformer发展简史：从ViT到DINOv2的技术演进

Word count: 12kReading time: 43 min

 2025/03/28 

原创性声明

本文为作者原创，在个人Blog首次发布，如需转载请注明引用出处。（yanzhang.cg@gmail.com 或 https://graphicyan.github.io/）。
报告部分内容由通义AI生成。

视觉Transformer(ViT)及其后续改进模型如DINO、iBOT、AIM、MAE和DINOv2代表了计算机视觉领域的重要技术演进。这些模型不仅解决了传统卷积神经网络(CNN)的局部性局限，还通过自监督学习等创新方法降低了对大规模标注数据的依赖。随着技术的不断进步，视觉Transformer已从基础分类任务扩展到目标检测、人体姿态估计等复杂场景，并催生了如Sapiens等专为人形任务设计的模型。本文将按时间顺序详细分析这些模型的发展历程、原理特点、优缺点及在下游任务中的表现，为理解视觉Transformer的演进脉络提供系统视角。

1. ViT：视觉Transformer的奠基之作(2020)

1.1 原理与架构

ViT(Visual Transformer)由Google团队于2020年提出，首次将Transformer架构直接应用于图像识别任务。其核心思想是将图像视为序列数据，具体实现步骤如下：

图像序列化：将输入图像X∈R^H×W×C分割为N=HW/P²个边长为P的正方形图像块，形成序列X∈R^N×(P²×C)，其中P为块大小。
位置编码：为每个图像块引入可学习的位置向量pos∈R^D，与块嵌入向量相加，使模型能够区分不同位置的块。
Transformer编码器：将序列输入到由L个Transformer编码器层堆叠而成的网络中，每个层包含多头自注意力(MHA)和前馈神经网络(FFN) 。
分类头：在序列开头添加一个可学习的[CLS]向量，最后通过多层感知机(MLP)进行分类。

ViT的创新点在于完全摒弃了CNN的局部卷积操作，通过自注意力机制捕捉全局依赖关系，实现了与NLP领域一致的序列处理范式。

1.2 优缺点分析

ViT的优点主要体现在：

全局建模能力强：自注意力机制能够捕捉图像中任意位置之间的依赖关系，优于CNN的局部感受野
并行计算高效：Transformer的并行架构使得ViT可以高效处理大规模数据
参数共享机制：与CNN不同，ViT的参数在不同位置共享，减少了参数量

然而，ViT也存在明显缺点：

数据依赖性高：需要大量标注数据进行训练，泛化能力受限
计算成本高：自注意力机制的计算复杂度为O(n²d)，其中n是序列长度，d是特征维度
局部细节丢失：缺乏CNN的归纳偏置(如平移不变性和局部敏感性)，对局部细节的捕捉能力不足

1.3 下游任务表现

ViT在ImageNet-1k分类任务上表现优异，线性探针准确率达84.15% ，但其在需要局部感知的任务(如目标检测、语义分割)中表现不佳。例如，在COCO目标检测任务上，直接使用ViT作为Backbone的模型mAP仅为35.2，远低于ResNet-50的45.0。这表明ViT在基础分类任务上具有优势，但在密集预测任务中需要额外设计。

2. Swin Transformer：计算效率的革命(2021)

2.1 原理与架构

Swin Transformer由微软团队于2021年3月提出，引入了分层窗口注意力机制，有效解决了ViT的计算效率问题。其核心创新包括：

窗口注意力：将图像划分为多个非重叠窗口，仅在窗口内计算自注意力，将计算复杂度从O(n²)降至O(n)，其中n为窗口大小。
偏移窗口注意力：通过在相邻层移动窗口位置，实现不同窗口间的信息交互，保持全局建模能力。
层次化结构：通过逐步合并窗口，形成多尺度特征金字塔，增强模型对不同尺度目标的适应性。
位置编码：使用可学习的相对位置偏差，替代ViT的绝对位置编码，增强模型的灵活性。

Swin Transformer的架构设计吸取了ResNet从局部到全局的优势部分，将Transformer设计成逐步扩大感受野的工具，使其在保持ViT全局建模能力的同时，显著提升了计算效率。

2.2 优缺点分析

Swin Transformer的优点：

计算效率高：通过窗口注意力机制，将计算复杂度从O(n²)降至O(n)，显著降低了显存消耗和训练时间
多尺度适应性：层次化结构使模型能够有效处理不同尺度的目标，优于ViT的单一尺度特征
全局建模能力：通过偏移窗口注意力，模型能够捕捉长距离依赖关系，保持ViT的核心优势

缺点：

归纳偏置有限：虽然比ViT更高效，但仍缺乏CNN的局部归纳偏置，对边缘和纹理细节的处理能力不足
训练稳定性问题：随着模型规模扩大，训练过程可能出现不稳定，影响收敛
高分辨率适配性：预训练阶段通常使用较低分辨率（如224×224），在高分辨率下游任务中可能需要调整位置编码

2.3 下游任务表现

Swin Transformer在多个下游任务中表现出色：

分类任务：ImageNet-1k线性探针准确率达83.4%，接近监督学习模型的性能
目标检测：在COCO数据集上，Swin-B+Mask R-CNN达到53.8 mAP，优于ResNet-50的45.0 mAP
语义分割：在ADE20K分割任务中，冻结特征+轻量解码器达到51.5 mIoU，接近监督模型

Swin Transformer的核心贡献在于将Transformer引入实际应用，通过计算效率的优化，使大规模视觉Transformer模型成为可能，为后续模型（如DINOv2、Sapiens）提供了基础架构。

3. DINO：自监督视觉Transformer的突破(2021)

3.1 原理与架构

DINO(Data-efficient Image Transformers)由Meta AI团队于2021年6月提出，首次将自监督学习与Transformer结合，解决了ViT对标注数据的依赖问题。其核心架构包括：

教师-学生双网络：教师网络和学生网络共享相同的ViT骨干网络，但学生网络的投影头参数独立
对比学习机制：通过对比同一图像不同裁剪区域的特征表示，学习判别性特征
交叉熵损失：学生网络预测教师网络输出的类别分布，但使用中心化和锐化技术防止模式崩溃
多裁剪策略：同时使用不同尺寸的图像裁剪作为输入，增强模型的尺度不变性
位置编码：使用可学习的位置编码，与ViT相同

DINO的创新点在于无需任何标签即可实现高效的自监督学习，通过教师网络的输出作为监督信号，使学生网络学习到高质量的视觉表示。

3.2 优缺点分析

DINO的优点：

数据效率高：无需标注数据，大大降低了数据获取成本
全局特征提取能力强：继承ViT的全局建模能力，同时通过自监督学习增强判别性
多尺度适应性好：通过多裁剪策略，模型能够更好地适应不同尺度的目标

缺点：

计算资源需求大：教师-学生架构导致计算复杂度翻倍，训练大型模型需要大量GPU资源
对局部细节处理不足：与ViT类似，缺乏对局部空间关系的明确建模，影响分割等任务表现
超参数敏感：训练过程中需要精细调整温度参数、中心化系数等超参数，增加了实验难度

3.3 下游任务表现

DINO在ImageNet-1k分类任务上，线性探针准确率达80.1% ，接近监督学习方法的性能。在目标检测任务上，Mask DINO在COCO数据集上达到53.0 mAP的性能。然而，DINO在需要精确局部特征的任务(如细粒度分类、语义分割)中表现不如监督模型，例如在ADE20K分割任务上，冻结特征+解码器仅达到45.2% mIoU，而监督模型可达51.5% mIoU 。

4. iBOT：结合MLM的视觉Transformer(2021)

4.1 原理与架构

iBOT(Image BERT Pre-training with Online Tokenizer)由Microsoft Research Asia团队于2021年提出，结合了DINO的自蒸馏和BEIT的掩码语言建模(MLM)思想。其核心创新包括：

在线分块器：动态生成token，替代ViT的固定分块策略，使模型能够更好地适应不同尺度的目标
多任务学习：同时优化全局分类损失(DINO损失)和局部遮挡重建损失(MLM损失)，平衡全局与局部特征学习
双向编码器：通过掩码部分图像块并预测其内容，增强上下文信息的理解
混合损失函数：L = λL_DINO + (1-λ)L_MLM，平衡全局与局部特征学习
位置编码：使用可学习的位置编码，与ViT相同

iBOT的创新点在于将BERT的思想引入视觉领域，通过掩码语言建模增强模型对局部信息的捕捉能力，同时保持全局上下文理解。

4.2 优缺点分析

iBOT的优点：

局部特征提取能力强：掩码语言建模机制使模型能够更好地理解图像的局部内容，优于DINO的纯对比学习
数据效率高：相比DINO，iBOT在ImageNet分类任务上的KNN准确率更高，表明其特征质量更优
任务适应性好：通过调整两阶段损失的权重，可以更好地适应不同下游任务的需求

缺点：

训练复杂度高：需要同时优化两个不同目标函数，增加了训练难度
硬件资源消耗大：掩码语言建模需要更多的计算资源，难以在低端设备上部署
位置编码依赖：仍依赖ViT的可学习位置编码，对非固定分块的适应性有限

4.3 下游任务表现

iBOT在ImageNet-1k分类任务上，线性探针准确率达82.3% ，优于DINO的80.1%。在Cityscapes分割任务上，冻结特征+轻量解码器达到51.2% mIoU ，接近监督模型的55.8%。iBOT在细粒度分类任务上表现优异，能够更好地识别对象的局部细节，例如在FGVC数据集上，iBOT的准确率比DINO高5.3% 。

5. AIM：大规模自回归图像模型的预训练(2021)

5.1 原理与架构

《Scalable pre-training of large autoregressive image models》由相关研究团队于2021年提出，旨在探讨如何高效地预训练大规模自回归图像模型。其核心思想包括：

自回归模型：采用类似于GPT的自回归机制，逐像素预测图像内容，形成序列化的预测目标
大规模数据集：利用数十亿张图像进行预训练，提升模型的泛化能力
分布式训练：通过优化训练策略，支持大规模分布式训练，减少训练时间和资源消耗
位置编码：使用旋转位置编码(RoPE)，替代ViT的可学习位置编码，增强长序列建模能力
架构改进：引入SwiGLU前馈网络和RMSNorm归一化层，提升训练稳定性

AIM的核心创新在于通过自回归机制和大规模数据集的结合，提升模型的泛化能力和计算效率，为后续的MAE和iBOT等模型提供了思路。

5.2 优缺点分析

AIM的优点：

无缝扩展性：参数规模可扩展至70亿，且无需复杂稳定性技术（如低秩分解），训练过程更简单
高数据利用率：有效利用大规模未标注数据，预训练数据规模远超监督学习方法
全局建模增强：自回归依赖序列顺序，强制模型捕捉长程依赖，提升对复杂场景的理解能力

缺点：

计算成本高：自回归预测需逐token生成，训练复杂度高于MAE的并行掩码重建
局部遮挡敏感：自回归机制对局部遮挡或噪声更敏感，可能影响分割等任务表现
模型规模限制：虽然理论上可扩展至70亿参数，但实际应用中受限于计算资源，难以部署

5.3 下游任务表现

AIM在多个下游任务中表现出色，特别是在ImageNet分类任务上，AIM-0.6B（6亿参数）性能优于MAE-H（同等容量）。在15个视觉基准测试中，AIM平均性能优于DINO和iBOT，但略逊于DINOv2（因DINOv2使用高分辨率输入）。具体而言，在ImageNet分类任务上，AIM-0.6B的线性探针准确率达83.5%；在COCO目标检测任务上，冻结特征+微调可达到48.5 mAP，优于DINO但略低于DINOv2 。

6. MAE：掩码自动编码器的可扩展性学习(2021)

6.1 原理与架构

MAE(Masked Autoencoders Are Scalable Vision Learners)由Facebook AI Research团队于2021年提出，旨在通过掩码自动编码器实现高效的视觉学习。其核心架构包括：

掩码策略：随机遮挡输入图像的一部分（如75%），生成部分可见的图像块
编码器-解码器结构：编码器负责提取未被遮挡部分的特征，解码器则尝试重建被遮挡的部分
损失函数：使用重建误差作为损失函数，优化模型参数
高效性：编码器仅处理25%可见块，训练速度比监督学习快3倍
位置编码：使用可学习的绝对位置编码，与ViT相同

MAE的核心创新在于通过掩码策略增强模型的鲁棒性和泛化能力，同时保持较高的计算效率，为后续的DINOv2和Sapiens提供了技术基础。

6.2 优缺点分析

MAE的优点：

数据效率高：无需大量标注数据即可实现高质量的特征学习，仅需像素级重建目标
鲁棒性强：通过遮挡部分图像并重建，模型能够学习到更鲁棒的特征表示，对遮挡和噪声的适应性更好
计算效率高：编码器仅处理可见块，大幅降低了计算复杂度，训练速度比监督学习快3倍
位置编码优化：使用可学习的绝对位置编码，增强了模型对空间位置的感知能力

缺点：

重建质量限制：低分辨率重建可能导致细节丢失（如边缘模糊），影响下游任务表现
局部感知不足：相比iBOT的双向MLM，MAE仅通过全局上下文重建，对局部特征的学习较弱
模型规模限制：虽然理论上可扩展，但实际应用中受限于计算资源，难以部署大规模模型

6.3 下游任务表现

MAE在多个下游任务中表现出色，特别是在ImageNet-1k分类任务上，线性探针准确率达84.1% ，接近监督学习模型。在COCO目标检测任务上，MAE-H（20亿参数）的mAP达50.2%，优于DINO的53.0 mAP。MAE在语义分割任务上表现优异，例如在ADE20K分割任务中，MAE-B的冻结特征+解码器达到53.0% mIoU，接近监督模型的55.8% 。

7. Swin Transformer V2：位置偏差与归一化的优化(2021)

7.1 原理与架构

Swin Transformer V2由微软团队于2021年11月提出，是对Swin Transformer的全面升级。其核心技术包括：

残差后归一化：将归一化层从每个残差分支的开始移到末尾，使网络各层的激活值更加温和，提高训练稳定性
缩放余弦注意力：取代之前的点乘注意力机制，使自注意力的计算与输入的幅值无关，产生更平衡的注意力权重
Log-CPB位置偏差：使用对数间隔连续位置偏差，将低分辨率预训练模型有效转移到高分辨率下游任务
SimMIM自监督预训练：减少对大量标注图像的依赖，提升模型的泛化能力
层次化结构：通过逐步合并窗口，形成多尺度特征金字塔，增强模型对不同尺度目标的适应性

Swin Transformer V2的核心改进在于训练稳定性和分辨率适配性，使其能够支持更大规模的模型和更高分辨率的输入，为后续模型（如DINOv2、Sapiens）提供了基础架构。

7.2 优缺点分析

Swin Transformer V2的优点：

训练稳定性增强：残差后归一化和缩放余弦注意力使模型能够稳定训练更大规模的参数
高分辨率适配性：Log-CPB位置偏差使模型能够轻松处理高分辨率输入，无需复杂的调整
自监督预训练：SimMIM方法减少了对大量标注图像的依赖，提升了模型的泛化能力
计算效率高：通过窗口注意力机制，将计算复杂度从O(n²)降至O(n)，显著降低了显存消耗和训练时间

缺点：

归纳偏置有限：虽然比ViT更高效，但仍缺乏CNN的局部归纳偏置，对边缘和纹理细节的处理能力不足
模型规模限制：虽然支持30亿参数，但训练需要大量计算资源，难以在普通实验室复现
位置编码依赖：Log-CPB位置偏差需要特定的预处理步骤，增加了模型的复杂性

7.3 下游任务表现

Swin Transformer V2在多个下游任务中表现出色：

分类任务：ImageNet-1k线性探针准确率达84.0%，接近监督学习模型的性能
目标检测：在COCO数据集上，Swin-B+Mask R-CNN达到55.8 mAP，优于ResNet-50的45.0 mAP
语义分割：在ADE20K分割任务中，冻结特征+轻量解码器达到55.8% mIoU，接近监督模型
视频理解：在Kinetics-400视频动作分类任务上达到78.5%准确率，优于传统CNN方法

Swin Transformer V2的核心贡献在于解决了大规模视觉Transformer的训练稳定性和分辨率适配问题，为后续模型（如DINOv2、Sapiens）提供了基础架构，使其能够处理更复杂的任务和更高分辨率的输入。

8. DINOv2：自监督学习的全面升级(2023)

8.1 原理与架构

DINOv2由Meta AI团队于2023年4月提出，是对DINO的全面升级。其核心技术包括：

SK Centering：用Sinkhorn-Knopp算法替代DINO的softmax-centering，提升特征稳定性，防止模式崩溃
KoLeo Regularizer：基于差分熵估计的正则化，确保特征均匀分布，增强模型的泛化能力
高分辨率训练：预训练后期使用518×518分辨率，增强像素级任务表现，解决ViT的分辨率适配问题
序列打包：动态调整输入尺寸至块大小整数倍，提升内存效率，减少计算资源消耗
自动化数据管道：构建LVD-142M(1.42亿图像)数据集，通过聚类和相似度检索去重，提升数据多样性

DINOv2的核心创新在于优化自蒸馏流程和训练策略，使其能够更好地处理大规模数据，同时提升特征鲁棒性和多任务适用性，成为当前自监督视觉Transformer的标杆。

8.2 优缺点分析

DINOv2的优点：

特征鲁棒性强：通过SK Centering和KoLeo Regularizer，模型对图像变换(如旋转、缩放)具有更强的适应性，特征稳定性显著提升
多任务适用性好：支持图像分类、分割、检索等多种下游任务，无需微调即可达到SOTA性能
训练效率高：相比DINO，DINOv2的训练速度提升2倍，内存消耗降低3倍，大幅降低了计算资源需求
数据多样性高：LVD-100M数据集的构建方法确保了训练数据的多样性和质量，提升了模型的泛化能力

缺点：

计算资源需求极高：训练ViT-g(10亿参数)版本需要千GPU天，难以在普通实验室复现
模型体积大：即使是最小的ViT-S，参数量也相对较大，部署成本高
动态尺寸输入需预处理：序列打包技术虽然提升了内存效率，但需要额外的预处理步骤，增加了模型的复杂性

8.3 下游任务表现

DINOv2在多个下游任务中表现出色：

分类任务：ImageNet-1k零样本准确率达84.0% ，超过OpenCLIP(79.8%)，接近监督学习模型的性能
分割任务：ADE20K分割任务中，冻结特征+轻量解码器达到53.0% mIoU，接近监督模型的55.8%
深度估计：单张图像深度预测误差降低15%(如NYUv2数据集)
图像检索：COCO相似度得分为93%，略低于CLIP的96.4%，但无需文本对齐
目标检测：在COCO数据集上，DINOv2的mAP达55.8%，优于DINO的53.0 mAP

DINOv2的核心优势在于其通用性和鲁棒性，无需微调即可在多种任务上取得优异性能，为计算机视觉任务提供了”开箱即用”的Backbone 。

9. Sapiens：面向人类视觉任务的模型(2024)

9.1 原理与架构

Sapiens由Meta Reality Labs团队于2024年8月提出，专为理解图片和视频中的人类动作设计。其核心架构包括：

多任务学习：支持2D姿态估计、身体部位分割、深度预测和法线预测等多个任务，通过统一Backbone和轻量解码器实现
大规模数据集：利用Humans-300M数据集进行预训练，包含3亿张多样化的野外人类图像，提升模型的泛化能力
自监督预训练：采用MAE自监督预训练，观察部分遮掩的图像并尝试重建原始图像，学习鲁棒的特征表示
高分辨率输入：原生支持1K高分辨率推理，通过Log-CPB位置偏差确保特征迁移性，解决ViT的分辨率适配问题
编码器-解码器结构：编码器基于Swin Transformer V2的窗口注意力机制，解码器针对不同任务进行轻量设计

Sapiens的核心创新在于专注于人类视觉任务的设计，通过大规模数据集和自监督学习提升模型的泛化能力，同时支持高分辨率输入和多任务统一推理，成为人形视觉任务的标杆模型。

9.2 优缺点分析

Sapiens的优点：

专为人类任务设计：特别适合人体姿态估计、手部动作捕捉等人形动画任务，关键点检测精度显著提升
高精度输出：支持1K分辨率的输入，通过Log-CPB位置偏差确保特征迁移性，减少细节丢失
泛化能力强：通过3亿张人形图像的MAE自监督预训练，模型能够适应各种复杂场景，无需大量标注数据
多任务支持：单模型通过轻量解码器适配多个子任务，减少模型集成的复杂性，提升推理效率
计算效率高：基于Swin Transformer V2的窗口注意力机制，将计算复杂度从O(n²)降至O(n)，显著降低了显存消耗和训练时间

缺点：

计算资源需求大：训练Sapiens-2B（20亿参数）版本需要1024个A100 GPU训练18天，难以在普通实验室复现
数据依赖性强：依赖大规模高质量的人形数据集进行预训练，难以在小规模数据集上应用
任务特异性：虽然专为人形任务设计，但对非人形任务的支持有限，通用性不如DINOv2

9.3 在人相关子任务上的优势

Sapiens在人形任务上的核心优势体现在以下几个方面：

2D姿态估计：
- 关键点数量：Sapiens能够预测308个全身关键点，涵盖身体、手、脚和面部，其中手部关键点40个，脸部关键点多达243个，远超传统模型的68个面部关键点。
- 精度提升：在Humans-5K测试数据集上，Sapiens的AP（平均精度）达78.5%，比DWPose-L高出+7.1 AP，PA-MPJPE（部分对齐的平均关节位置误差）达75.5mm，优于DINOv2的78.8mm 。
- 遮挡鲁棒性：自注意力机制能够跨区域捕捉关键点关联，在遮挡场景下表现优异，PA-MPJPE比HRNet高2-3mm 。
身体部位分割：
- 精细分割：Sapiens支持28类身体部位的分割，涵盖头发、舌头、牙齿等细节部位，mIoU达81.2%，优于传统CNN模型。
- 多任务统一：单模型通过轻量解码器适配多个子任务，减少模型集成的复杂性，提升推理效率。
深度预测：
- 高精度预测：Sapiens在Hi4D数据集上达到11.4% RMSE（相对均方根误差），优于传统方法。
- 人形特化：针对人体结构进行优化，能够更准确地预测人物之间的相对深度关系，减少噪声干扰。
表面法线预测：
- 几何理解：Sapiens能够预测每个像素表面法线的方向，为三维重建和理解物体的几何形状提供重要信息，在THuman2数据集上达到11.84°的角误差，优于现有方法。
高分辨率支持：
- 原生支持：Sapiens原生支持1K分辨率输入，通过Log-CPB位置偏差确保特征迁移性，减少细节丢失。
- 轻量解码器：针对高分辨率输入设计的轻量解码器，能够高效处理精细细节，提升下游任务表现。

9.4 下游任务表现

Sapiens在多个基准测试中表现出色，特别是在Human-5K（姿态）、Humans-2K（部分分割）、Hi4D（深度）和THuman2（法线）等任务上：

方法	Humans-5K (AP)	Humans-2K (mIoU)	Hi4D (RMSE)	THuman2 (Angular Error)
Sapiens	78.5 (+7.1 AP)	81.2 mIoU	11.4% RMSE	11.84°
DINOv2	71.4	74.0 mIoU	13.2% RMSE	14.5°
HRNet	71.3	74.1 mIoU	13.5% RMSE	15.2°

Sapiens在人形任务上的表现显著优于传统模型和通用视觉Transformer，证明了其在人形视觉任务中的优越性。

10. ViT作为Backbone的优势分析

10.1 ViTPose：人体姿态估计的突破

ViTPose是基于ViT的轻量姿态估计模型，其核心优势在于：

全局建模能力：自注意力机制能够捕捉人体各部位间长程依赖（如手部与躯干的关联），在MS COCO测试集上达到80.9 AP，优于HRNet等CNN模型。
参数高效：仅需添加少量解码层（如2个反卷积层），模型复杂度低于传统CNN-CNN联合结构（如TransPose）。
可扩展性：支持不同参数量的ViT变体（如ViT-S/B/L），性能随模型规模提升，且推理速度（FPS）比轻量级CNN（如MobileNet）快2倍，同时精度更高。
遮挡鲁棒性：在MS COCO遮挡场景中，ViTPose的PA-MPJPE比HRNet高2-3mm，自注意力机制能跨区域捕捉关键点关联。

ViTPose在InterHand2.6M数据集上，MPJPE（毫米级误差）比Swin-Pose低2.1mm，归因于自注意力机制对局部-全局关系的捕捉能力。

10.2 ViTDet：目标检测的新范式

ViTDet是基于ViT的目标检测模型，其核心优势在于：

计算效率：通过window attention+局部传播策略，ViT-L模型显存从原始ViT的49GB降至约30GB，单卡A100可训练，优于传统FPN的显存消耗。
多尺度处理：单层特征金字塔（仅最后一个stage的特征）在COCO数据集上达到61.3 AP，超越Swin+FPN的60.5 AP，且参数量减少15% 。
预训练灵活性：MAE预训练的ViT-H在LVIS长尾检测任务中，mAP比ResNeXt-101高15%，证明自监督预训练的泛化性。
全局上下文理解：自注意力机制能够捕捉图像中任意位置之间的依赖关系，提升小目标检测（APs）和大目标检测（APl）的表现。

在Airbus数据集上，ViTDet-ViT-H的AP（平均精度）比ResNeXt-101高16-20%，尤其在小目标检测（APs）上提升显著，证明了ViT在目标检测任务中的潜力。

11. 模型对比与演进脉络

11.1 关键技术演进

从ViT到Sapiens的发展历程中，视觉Transformer的关键技术演进主要体现在以下几个方面：

模型	位置编码	自监督策略	多任务支持	计算效率	局部感知能力	人形任务优化
ViT	可学习	有监督	弱	低	差	无
DINO	可学习	对比蒸馏	中	中	中	无
iBOT	可学习	对比蒸馏+MLM	强	中	强	无
AIM	RoPE	自回归	强	高	中	无
MAE	可学习	掩码重建	强	高	中	无
DINOv2	可学习	对比蒸馏+SK+KoLeo	强	极高	强	无
Sapiens	Log-CPB	MAE自监督	强	极高	强	是

11.2 性能对比

各模型在ImageNet-1k分类任务上的性能对比：

模型	线性探针准确率	零样本准确率	训练数据	计算复杂度	参数量
ViT	84.15%	-	需要大量标注数据	高	76M
DINO	80.1%	-	无需标注数据	中	76M
iBOT	82.3%	-	无需标注数据	中	76M
AIM	83.5%	-	无需标注数据	高	600M
MAE	84.1%	-	无需标注数据	高	76M
DINOv2	84.0%	84.0%	1.42亿无标签图像	极高	76M-10B
Sapiens	78.5%	-	3亿无标签人形图像	极高	300M-20B

在分割任务上的性能对比：

模型	ADE20K分割mIoU	COCO分割mAP	是否需要微调	参数量
ViT	需要解码器	需要解码器	是	76M
DINO	45.2%	41.8%	是	76M
iBOT	51.2%(冻结)	48.5%(冻结)	需要微调优化	76M
AIM	43.5%	39.0%	是	600M
MAE	53.0%(冻结)	50.2%(冻结)	是	76M
DINOv2	53.0%(冻结)	49.2%(冻结)	不需要微调	76M-10B
Sapiens	81.2 mIoU	-	是	300M-20B

12. 轻量化设计：ViT的实用化之路

12.1 轻量化技术进展

随着视觉Transformer的普及，轻量化设计成为重要研究方向。EfficientViT、MobileViT和DeViT等模型通过创新架构设计，大幅降低了ViT的计算复杂度和参数量，使其能够在移动端和边缘设备上实现实时推理。

EfficientViT：
- 线性注意力：将自注意力机制替换为线性注意力，将计算复杂度从O(n²)降至O(n)，显著提升了计算效率。
- 通道重分配：通过参数重分配实现更高效的Channel、Block和Stage数量权衡，减少冗余计算。
- 移动端部署：在iPhone12上推理延迟仅1.6ms（比MobileNetV2快6%），证明纯Transformer架构可实现移动端实时部署。
MobileViT：
- 混合架构：结合轻量化网络MobileNetV2与ViT模型的优点，降低模型大小的同时保持较高的准确率。
- 工业应用：在烤烟自动分组等工业场景中，MobileViT的准确率分别比MobileNetV3和EfficientNet提升11.86%和9.6%，模型大小降低24.62%和79.1% 。
- 实时性：ViTPose-S模型在GPU上达到30 FPS，比MobileNet+OpenPose快2倍，同时精度提升12% 。
DeViT：
- 模型分解与协同推理：将大模型拆分为小模块，通过协同推理提升边缘设备部署效率。
- 参数压缩：通过知识蒸馏和量化技术，将模型参数量压缩至1亿以下，同时保持较高精度。

12.2 轻量化设计的未来趋势

未来轻量化设计将进一步推动视觉Transformer在移动端和边缘设备上的应用，主要趋势包括：

混合架构：结合CNN的局部归纳偏置和ViT的全局建模能力，如MobileViT和EfficientViT的混合设计，平衡计算效率和性能。
注意力机制优化：进一步降低自注意力的计算复杂度，如线性注意力、局部注意力和稀疏注意力，使ViT能够处理更高分辨率的输入。
模型压缩：通过知识蒸馏、量化和剪枝等技术，将模型参数量压缩至1亿以下，同时保持较高精度，满足移动端部署需求。
硬件协同设计：针对Transformer架构优化硬件设计，如专用加速器和编译器，进一步提升推理速度，降低延迟。

13. 多模态融合：视觉Transformer的扩展方向

13.1 多模态融合技术进展

视觉Transformer与多种传感器数据的融合成为重要趋势。GigaTok、CLIP和BLIP等模型通过跨模态表示学习，实现了图像与文本、视频与音频的联合建模，拓展了视觉Transformer的应用场景。

GigaTok：
- 语义正则化：结合DINOv2的语义正则化，支持跨模态信息整合，在SLAM和无人机位姿估计中，通过扩展卡尔曼滤波(EKF)实现视觉与惯性数据的紧耦合，解决动态场景下的实时性问题。
- 大规模数据：利用网络收集的120亿多模态样本，构建高质量的跨模态表示空间，提升模型的泛化能力。
CLIP：
- 跨模态对齐：通过对比学习将图像和文本嵌入到共享的向量空间中，实现图像与文本的语义关联，零样本准确率高达79.8% 。
- 多任务支持：在图像分类、目标检测和语义分割等任务中表现优异，无需额外微调即可应用。
BLIP：
- 理解与生成能力：兼具图文多模态的理解和生成能力，支持图像字幕生成和视觉问答等任务。
- 数据质量提升：通过Captioner和Filter模块，去除网络资源中的文本噪声，提高模型性能。

13.2 多模态融合的未来趋势

未来多模态融合将拓展至更广泛的传感器组合，增强模型在复杂环境中的鲁棒性，主要趋势包括：

隐式对齐：通过注意力机制实现不同模态之间的隐式对齐，无需显式的特征翻译，提升模型的灵活性和适应性。
多模态协同：利用一种模态的数据来增强另一种模态的训练，如用文本数据增强图像特征学习，减少对标注数据的依赖。
3D模型支持：将Transformer扩展至3D生成，结合空间信息增强多模态任务表现，如MeshDiffusion和Instant3D 。
工业应用：在AR/VR、自动驾驶和医疗诊断等领域，视觉Transformer与多种传感器数据的融合将推动AI技术的落地应用。

14. 自监督学习优化：降低标注依赖的关键

14.1 自监督学习技术进展

自监督学习是视觉Transformer的重要发展方向，MAE、DINO和iBOT等模型通过创新预训练策略，大幅降低了对标注数据的依赖，使模型能够在无标签或少量标签数据上实现高质量的特征学习。

MAE：
- 掩码策略：随机遮挡75%的图像块，编码器仅处理可见块，解码器重建被遮挡部分，降低计算复杂度。
- 数据效率：无需大量标注数据，仅需像素级重建目标，即可实现高质量的特征学习。
- 位置编码优化：使用可学习的绝对位置编码，增强模型对空间位置的感知能力。
DINOv2：
- SK Centering：用Sinkhorn-Knopp算法替代DINO的softmax-centering，提升特征稳定性，防止模式崩溃。
- KoLeo Regularizer：基于差分熵估计的正则化，确保特征均匀分布，增强模型的泛化能力。
- 自动化数据管道：构建LVD-100M数据集，通过聚类和相似度检索去重，提升数据多样性。
iBOT：
- 双向编码器：通过掩码部分图像块并预测其内容，增强上下文信息的理解，提升局部特征提取能力。
- 多任务学习：同时优化全局分类损失和局部遮挡重建损失，平衡全局与局部特征学习。
- 数据效率：相比DINO，iBOT在ImageNet分类任务上的KNN准确率更高，表明其特征质量更优。

14.2 自监督学习的未来趋势

未来自监督学习将探索更高效的蒸馏算法和更自动化数据筛选策略，主要趋势包括：

自动化数据筛选：DINOv2的自动化数据管道（如聚类去重）可能被多模态模型借鉴，结合LLM进行文本-图像联合聚类，提升预训练数据质量。
正则化扩展：SK Centering和KoLeo Regularizer可能被用于视频动作识别中的时序特征对齐，减少帧间抖动。
无标签数据利用：利用网络图像或视频进行更大规模预训练，结合自监督策略提升模型性能，减少对标注数据的依赖。
多模态自监督：将自监督策略扩展至多模态场景，如图像-文本联合掩码建模，提升跨模态表示学习能力。

15. 技术演进脉络总结

从ViT到Sapiens的演进可以总结为以下六个阶段：

**基础阶段(2020)**：ViT奠定了视觉Transformer的基础，将Transformer架构引入计算机视觉领域，但存在数据依赖性和局部感知不足的问题。
**计算效率优化阶段(2021)**：Swin Transformer通过分层窗口注意力机制，将全局注意力拆分为局部窗口操作，计算复杂度从O(n²)降至O(n)，解决了ViT的计算效率问题。
**自监督阶段(2021)**：DINO和iBOT解决了ViT对标注数据的依赖，通过自监督学习提取高质量视觉特征。DINO采用对比蒸馏策略，iBOT结合MLM增强局部特征学习。
**大规模预训练阶段(2021)**：AIM和MAE通过大规模数据集的预训练，提升模型的泛化能力和计算效率。AIM采用自回归机制，MAE通过掩码自动编码器增强鲁棒性。
**架构优化阶段(2021)**：Swin Transformer V2通过残差后归一化、缩放余弦注意力和Log-CPB位置偏差，解决了大规模视觉Transformer的训练稳定性和分辨率适配问题。
**人类任务优化阶段(2024)**：Sapiens专注于人类视觉任务，通过大规模人形数据集和自监督学习，提升模型在人体姿态估计、手部动作捕捉等任务上的表现。

这一演进脉络清晰地展示了视觉Transformer从依赖标注数据到自监督学习，从全局建模到局部感知增强，从理论探索到实际应用的技术发展路径 。每个阶段都针对ViT的局限性提出了解决方案，使其能够处理更复杂的任务和更高分辨率的输入，最终成为计算机视觉领域的主流架构。

16. 视觉Transformer的未来发展方向

16.1 轻量化设计

未来视觉Transformer的轻量化设计将进一步推动其实用化，主要方向包括：

参数压缩：通过知识蒸馏、量化和剪枝等技术，将模型参数量压缩至1亿以下，同时保持较高精度，满足移动端部署需求。
注意力机制优化：进一步降低自注意力的计算复杂度，如线性注意力、局部注意力和稀疏注意力，使ViT能够处理更高分辨率的输入。
硬件协同设计：针对Transformer架构优化硬件设计，如专用加速器和编译器，进一步提升推理速度，降低延迟。
混合架构：结合CNN的局部归纳偏置和ViT的全局建模能力，如MobileViT和EfficientViT的混合设计，平衡计算效率和性能。

16.2 多模态融合

视觉Transformer与多种传感器数据的融合将成为重要趋势，主要方向包括：

跨模态对齐：通过注意力机制实现不同模态之间的隐式对齐，无需显式的特征翻译，提升模型的灵活性和适应性。
多模态协同：利用一种模态的数据来增强另一种模态的训练，如用文本数据增强图像特征学习，减少对标注数据的依赖。
3D模型支持：将Transformer扩展至3D生成，结合空间信息增强多模态任务表现，如MeshDiffusion和Instant3D 。
工业应用：在AR/VR、自动驾驶和医疗诊断等领域，视觉Transformer与多种传感器数据的融合将推动AI技术的落地应用。

16.3 自监督学习优化

自监督学习的优化将进一步降低对标注数据的依赖，主要方向包括：

自动化数据筛选：DINOv2的自动化数据管道（如聚类去重）可能被多模态模型借鉴，结合LLM进行文本-图像联合聚类，提升预训练数据质量。
正则化扩展：SK Centering和KoLeo Regularizer可能被用于视频动作识别中的时序特征对齐，减少帧间抖动。
无标签数据利用：利用网络图像或视频进行更大规模预训练，结合自监督策略提升模型性能，减少对标注数据的依赖。
多模态自监督：将自监督策略扩展至多模态场景，如图像-文本联合掩码建模，提升跨模态表示学习能力。

16.4 人形任务专精

针对人形任务的专精模型将进一步发展，主要方向包括：

高分辨率适配：原生支持更高分辨率输入（如2K或4K），结合Log-CPB位置偏差，减少细节丢失，提升关键点检测和分割精度。
多任务统一：单模型通过轻量解码器适配多个子任务，减少模型集成的复杂性，提升推理效率，如Sapiens的多任务框架。
人形特化设计：针对人体结构进行优化，如增加关键点数量、细化身体部位分割和改进表面法线预测，提升人形任务表现。
实时性提升：通过轻量化设计和优化推理流程，使人形任务模型能够在移动端和边缘设备上实现实时推理，如EfficientFormer的低延迟设计。

17. ViT相比传统CNN或专用网络的有监督学习优势

17.1 全局建模能力

ViT的自注意力机制能够捕捉图像中任意位置之间的依赖关系，优于CNN的局部感受野。在遮挡场景下，ViT的全局建模能力使其能够更好地理解物体的整体结构，而CNN受限于局部感受野，可能无法正确识别被遮挡的部分。

例如，在MS COCO遮挡场景中，ViTPose的PA-MPJPE比HRNet高2-3mm，自注意力机制能跨区域捕捉关键点关联。在目标检测任务中，ViTDet在小目标检测（APs）上比ResNeXt-101提升16-20%，归因于自注意力机制对全局上下文的理解能力。

17.2 可扩展性

ViT的性能随着模型规模的增加而提升，表现出很好的可扩展性。通过增加参数量和训练数据规模，ViT能够实现更高的准确率，而CNN的可扩展性相对有限。

例如，MAE预训练的ViT-H在LVIS长尾检测任务中，mAP比ResNeXt-101高15%，证明ViT在大规模数据上的优势。在ImageNet分类任务上，AIM-7B（70亿参数）的性能显著优于MAE-2B（20亿参数），表明ViT的可扩展性优于CNN 。

17.3 多任务统一性

ViT可以作为统一Backbone适配姿态估计、检测、分割等任务，而CNN需复杂设计（如HRNet的多分支结构）。ViT的全局建模能力使其能够更好地理解图像的整体语义，为多种任务提供通用特征表示。

例如，Sapiens通过单模型适配2D姿态估计、身体部位分割、深度预测和法线预测等多个任务，减少模型集成的复杂性，提升推理效率。ViTDet通过简单调整（如添加反卷积层），即可实现目标检测任务，而CNN需要设计复杂的FPN结构和锚点机制。

17.4 零样本学习能力

基于自监督预训练的ViT（如DINOv2和Sapiens）具有强大的零样本学习能力，无需针对特定任务进行额外训练即可应用。这种能力使ViT能够在新任务上快速适应，减少标注数据的需求。

例如，DINOv2在ImageNet-1k零样本准确率达84.0%，超过OpenCLIP(79.8%)，接近监督学习模型的性能。Sapiens在 Humans-5K、Humans-2K等任务上，即使在标注数据稀缺的情况下，也能展现出卓越的泛化能力，为虚拟现实、增强现实等应用提供了强大支持。

18. 结论与展望

视觉Transformer从ViT到Sapiens的发展历程，不仅解决了传统CNN的局部性局限，还通过自监督学习等创新方法降低了对大规模标注数据的依赖。这一技术演进为计算机视觉领域带来了范式转变，使模型能够更好地理解图像的全局和局部关系，同时在多种下游任务上实现”开箱即用”。

未来视觉Transformer的发展将围绕四个核心方向：轻量化设计提升部署效率，多模态融合增强环境感知能力，自监督学习优化降低计算成本，以及在专业领域的落地应用。随着这些方向的深入探索，视觉Transformer有望在更多实际场景中发挥重要作用，推动计算机视觉技术的进一步发展。

通过理解这一技术演进脉络，研究者可以更好地把握视觉Transformer的发展趋势，为未来的模型设计和应用提供指导。同时，这一演进也提醒我们，视觉Transformer的成功不仅在于架构创新，更在于对传统视觉问题的深刻理解和对新技术的合理应用。特别是在人形重建和预测任务中，Sapiens展现了其独特的优越性，为该领域提供了新的解决方案和技术路径。

未来，随着计算资源的提升和算法的进一步优化，视觉Transformer有望在更多领域实现突破，成为计算机视觉领域的主流架构。轻量化设计、多模态融合和自监督学习优化将是推动视觉Transformer实用化的关键因素，而针对特定任务的专精模型（如Sapiens）将为垂直领域提供更高效、更精准的解决方案。

Author：Yan Zhang

Link：https://graphicyan.github.io/2025/03/28/ViT-Development/

Publish date：March 28th 2025, 11:18:59 pm

Update date：July 20th 2025, 10:21:19 pm

License：本文采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可

Next Post

LoRA微调技术：数学基础、原理与视觉应用
Previous Post

基于Transformer的人体姿态重建（四）：引入高精度的手部姿态

CATALOG

1. 原创性声明
2. 1. ViT：视觉Transformer的奠基之作(2020)
3. 2. Swin Transformer：计算效率的革命(2021)
4. 3. DINO：自监督视觉Transformer的突破(2021)
5. 4. iBOT：结合MLM的视觉Transformer(2021)
6. 5. AIM：大规模自回归图像模型的预训练(2021)
7. 6. MAE：掩码自动编码器的可扩展性学习(2021)
8. 7. Swin Transformer V2：位置偏差与归一化的优化(2021)
9. 8. DINOv2：自监督学习的全面升级(2023)
10. 9. Sapiens：面向人类视觉任务的模型(2024)
11. 10. ViT作为Backbone的优势分析
1. 11.1. 10.1 ViTPose：人体姿态估计的突破
2. 11.2. 10.2 ViTDet：目标检测的新范式
12. 11. 模型对比与演进脉络
1. 12.1. 11.1 关键技术演进
2. 12.2. 11.2 性能对比
13. 12. 轻量化设计：ViT的实用化之路
1. 13.1. 12.1 轻量化技术进展
2. 13.2. 12.2 轻量化设计的未来趋势
14. 13. 多模态融合：视觉Transformer的扩展方向
1. 14.1. 13.1 多模态融合技术进展
2. 14.2. 13.2 多模态融合的未来趋势
15. 14. 自监督学习优化：降低标注依赖的关键
1. 15.1. 14.1 自监督学习技术进展
2. 15.2. 14.2 自监督学习的未来趋势
16. 15. 技术演进脉络总结
17. 16. 视觉Transformer的未来发展方向
18. 17. ViT相比传统CNN或专用网络的有监督学习优势
19. 18. 结论与展望