MMPretrain算法库

优势:
- 含有各种主干网络模型
- 自监督学习功能
- 多模态学习功能
- 丰富的数据集
- 含有训练技巧和策略
- 易用,例如可解释性分析、推理api
包含多种丰富任务的开箱即用推理api
- 图像分类
- 图像语义描述
- 视觉问答
- 视觉定位
- 检索

安装步骤

配置文件中含有模型训练中的设置,影响精度和速度,主要涉及以下几个方面:
- 模型结构
- 数据
- 训练策略
- 运行时gpu、分布式环境配置
- 辅助功能 日志、定时保存权重
代码框架以及各个目录的含义用法:

数据流

配置文件的运行方式:

经典主干网络


vision transformer
将图像切成若干16*16的小块,排列成“词向量”

注意力机制:为了实现层次化特征
后层特征是空间邻域内的前层特征的加权求和

自监督学习
不依赖人工标注,利用互联网上的海量数据


多模态算法





















