- 相关资源: github
第二课 图像分类与基础视觉模型
图像分类
图像分类任务:给定一张图片,识别图像中的物体是什么 X ∈ R H ∗ W ∗ 3 → { 1 , 2.. , K } X\in R^{H*W*3} \rightarrow \{1,2..,K\} X∈RH∗W∗3→{1,2..,K};
从图片中学习:




- 解决图像分类任务主要是两个部分:模型的设计、模型的学习

卷积神经网络
- AlexNet(2012)

- Deeper:

VGG
- VGG(2014):


Inception
- GoogLeNet(Inception v1, 2014)

ResNet (CVPR 2016 BestPaper, CV领域引用数十万)
- 模型层数增加到一定程度后,分类正确率不增反降



- ResNet(2015)



- ResNet 中的两种残差模块

- ResNet 是深浅模型的集成:

- 残差链接让损失曲面更平滑:

- ResNet 后续改进:

更强的图像分类模型

神经结构搜索 Neural Architecture Search (2016+)

Vision Transformers (2020+)

- ConvNeXt (2022):

轻量化卷积神经网络


降低模型参数量和计算量的方法

- GoogLeNet 使用不同大小的卷积核:

1x1 卷积
- ResNet 使用1×1卷积压缩通道数:

可分离卷积

MobileNet V1/V2/V3 (2017~2019)

ResNeXt 中的分组卷积

Vision Transformers
注意力机制 Attention Mechanism


多头注意力 Multi-head (Self-)Attention

1D 数据上的 Attention

Vision Transformer (2020)

Swin Transformer (ICCV 2021 best paper)



模型学习
这里略去基础知识,只保留与CV相关的部分。

学习率与优化器策略
-
权重初始化:


-
学习率退火 Annealing:

-
学习率升温 Warmup:

-
Linear Scaling Rule:

-
自适应梯度算法:

-
正则化与权重衰减 Weight Decay:

-
早停 Early Stopping:

-
模型权重平均 EMA:

-
模型权重平均 Stochastic Weight Averaging:

数据增强

- 组合数据增强 AutoAugment & RandAugment

- 组合图像 Mixup & CutMix

- 标签平滑 Label Smoothing:

模型相关策略
丢弃层 Dropout

随机深度 Stochastic Depth

自监督学习

Relative Location (ICCV 2015)

SimCLR (ICML 2020)

Masked autoencoders (MAE, CVPR 2022)

MMClassification 介绍

后面笔记的具体内容放到 day3 的代码实现部分更好一点,因此笔记到这里就结束啦。



















