MMPretrain算法库

 优势:
- 含有各种主干网络模型
- 自监督学习功能
- 多模态学习功能
- 丰富的数据集
- 含有训练技巧和策略
- 易用,例如可解释性分析、推理api
包含多种丰富任务的开箱即用推理api
- 图像分类
- 图像语义描述
- 视觉问答
- 视觉定位
- 检索

 安装步骤
 
配置文件中含有模型训练中的设置,影响精度和速度,主要涉及以下几个方面:
- 模型结构
- 数据
- 训练策略
- 运行时gpu、分布式环境配置
- 辅助功能 日志、定时保存权重
代码框架以及各个目录的含义用法:
 
 数据流
 
 配置文件的运行方式:
 
经典主干网络


 vision transformer
 将图像切成若干16*16的小块,排列成“词向量”
 
 注意力机制:为了实现层次化特征
后层特征是空间邻域内的前层特征的加权求和
 
自监督学习
不依赖人工标注,利用互联网上的海量数据
 

多模态算法

 



















