文章目录
- 一、卷积网络
- 1.1 卷积的参数量
- 1.2 卷积的计算量
- 1.3 降低模型参数量和计算量的方法
- 1.3.1 GoogLeNet 使用不同大小的卷积核
- 1.3.2 ResNet 使用1×1卷积压缩通道数
- 1.3.3 可分离卷积
- 二、Transformer
- 2.1 注意力机制 Attention Mechanism
- 2.2 多头注意力 Multi-head (Self-)Attention
- 2.3 Vision Transformer
- 2.4 Swin Transformer
- 三、模型学习的范式
- 3.1 监督学习
- 3.2 自监督学习
- 四、tips
- 4.1 权重初始化
- 4.2 学习率
- 4.2.1 学习率对训练的影响
- 4.2.2 学习率退火 Annealing
- 4.2.3 学习率升温 Warmup
- 4.2.4 Linear Scaling Rule
- 4.3 梯度更新算法
- 4.3.1 自适应梯度算法
- 4.3.2 正则化与权重衰减 Weight Decay
- 4.4 早停 Early Stopping
- 4.5 模型权重平均 EMA
- 五、标签平滑 Label Smoothing
一、卷积网络
1.1 卷积的参数量

1.2 卷积的计算量

1.3 降低模型参数量和计算量的方法
•降低通道数 C′ 和 C(平方级别)
•减小卷积核的尺寸 K(平方级别)
1.3.1 GoogLeNet 使用不同大小的卷积核

1.3.2 ResNet 使用1×1卷积压缩通道数

1.3.3 可分离卷积



二、Transformer
2.1 注意力机制 Attention Mechanism


query:查询特征,即我关心的特征有哪些。以自动驾驶举例,比如我关心车、行人、车道等三类特征;
key:图像中有什么,比如图像中有车和车道这两种特征。
2.2 多头注意力 Multi-head (Self-)Attention
仿造卷积使用多组通道的特征就多头注意力机制

2.3 Vision Transformer

2.4 Swin Transformer
- Vision Transformer 的特征图是是直接下采样 16 倍得到的,后面的特征图也是维持这个下采样率不变,缺少了传统卷积神经网络里不同尺寸特征图的层次化结构。所以,Swin Transformer 提出了分层结构(金字塔结构)Hierarchical Transformer。
- 同时,相对于 Vision Transformer 中直接对整个特征图进行 Multi-Head Self-Attention,Swin Transformer 将特征图划分成了多个不相交的区域(Window),将 Multi-Head Self-Attention 计算限制在窗口内,这样能够减少计算量的,尤其是在浅层特征图很大的时候。



三、模型学习的范式
3.1 监督学习

3.2 自监督学习

四、tips
4.1 权重初始化

4.2 学习率
4.2.1 学习率对训练的影响

4.2.2 学习率退火 Annealing

4.2.3 学习率升温 Warmup

4.2.4 Linear Scaling Rule

4.3 梯度更新算法
4.3.1 自适应梯度算法

4.3.2 正则化与权重衰减 Weight Decay

4.4 早停 Early Stopping

4.5 模型权重平均 EMA



五、标签平滑 Label Smoothing



















