
 

 
背景

Autoregressive Langeuage Models
不完整的句子,预测剩下的空的词语
 
- sentence completion
  
  
  
Transformer-based ALMs

Masked language models-MLMs

 

 
 预训练模型能将输入文本转成hidden feature representation

 
 
 模型参数最开始是从预训练模型中拿到,然后给予具体任务再微调,中间模型参数可固定也可以微训练
 
- 相关paper
  
  
  
  
The Problems of PLMs
问题1:有label的数据少

问题2:模型慢慢越来越大了,推理费时间


 4个任务需要4倍显存大小
 
 推理耗时长
解决办法
Labeled Data Scarcity——Data-efficient-tuning

 当数据少的时候,可能模型无法学习到上述任务功能
 
 将数据转成自然语言的prompt,模型能更容易知道自己应该做什么
 
 

- 1 A prompt template: 告诉模型要做什么事,这里是填充中间的mask
  
- 2-一个plm模型执行任务,输出概率最大的可能情况

- verbalizer: 将标签和概率映射起来
  
  
  
 当标注数据比较少的话,标准微调是比较难训练好的;
  
  
few-shot learning

 
 
 
semi-supervised learning

 
- PET 
  - 第一步:设计不同的prompt
  
- 第二步:使用多个训练的模型去预测标签,将预测的结果加起来作为总的预测
  
- 第三步:使用标准的训练方法,soft label
  
 
- 第一步:设计不同的prompt
Zero-shot learning

 
 大模型够大,就可以实现zero-shot
 
 
 
 
 
总结

- 蒸馏
- 提纯到下游任务

 共享相关transfomer layers的参数
PLMs Are Gigantic——Reducing the Number of Parameters

 转变为共用一个bert模型
 
 
 
 
Adapter

 
 
 只更新adapter,不更新transformer;adapter做的事情是先降维,然后再升维,产生△h
 
 每个下游任务只学习它自己的△h, transformer层的参数h不动,这样能大大减少需要的显存空间。
LoRA

 
 先把低维向量变成高维,然后高维再变成低维。
 
 
 
 Lora效果比adaper效果好,不会增加模型层数,参数量比adapter要小。
Prefix Tuning

 
 
 在标准的自注意力结构的前面插了一些东西
 
 在infer的时候把蓝色的部分丢掉
 
Soft Prompting

 
总结

 
 
Early Exit

 用整个模型跑花很长时间
 
 
 第一层的分类器信心不足,到第二层:
 
 如果信心够了,就不用后面的过程了,以节约时间
 
 
总结

Closing Remarks

 
 
 



















![[Linux笔记]常见命令(持续施工)](https://img-blog.csdnimg.cn/880deb62f4704ccba141f5827eef335e.png)