参考
李宏毅老师讲解
思维导图

ChatGPT
对标
instruct GPT
本质
GPT的社会化
训练过程
1 学习文字接龙
-  
无监督学习
-  
大量的自我学习
-  
生成的答案具有随机性
- 自己修炼
 
 
 -  
 
 -  
 
2 人类老师引导文字接龙的方向
-  
监督学习
-  
标注:(问题提示,答案)对,引导gpt生成人类想要的我问题
- 老师答案引导
 
 
 -  
 
3 模仿人类老师的喜好
-  
知识蒸馏,对抗学习,监督学习
-  
通过实际使用,对回答的答案进行人工高低评分
-  
(根据问题+答案,评分)对训练老师评分模型
- 老师评分引导
 
 
 -  
 
 -  
 
4 用增强式学习向模拟老师学习
-  
强化学习
-  
(gpt的问题,gpt的答案)对,喂入给老师模型评判,根据奖励机制不断的训练gpt模型
- 模型自己引导
 
 
 -  
 
本质
- 模型自我学习以及模型的对抗评判,后期脱离人类的参与,引入人类的干预后,后期逐渐的减少人类的干预
 
缺点
简单的问题,容易出错
- 原因:训练阶段人类标注的问题往往是正常的,并且有些难度的标注
 


















