文章目录
- 1. swin-transformer
- 2. swin-transformer的结构
1. swin-transformer
优点:
- 解决transformer在cv领域速度慢的问题
- 保持CNN的位移不变性、尺寸不变性、感受野与尺寸的关系、分阶段降低分辨率等特点
- 在多领域表现SOTA
缺点:
- 不具备CNN的权值共享这一特点。
2. swin-transformer的结构
整体流程:
- 对特征图进行LayerNorm
- 决定是否需要对特征图进行shift
- 将特征图切成小的窗口
- 计算注意力,通过注意力mask区分Window Attention和Shift Window Attention
- 窗口合并
- 若做了shift,就要进行reverse shift
- dropout和残差连接
- 再通过LayerNorm+全连接层、dropout、残差连接。