5.3LLM建模的基本流程
大语言模型Large Language Model, LLM本质上是规模化的Transformer模型,也是decoder-only架构。从Transformer到LLM的演进不仅仅是参数规模的增长更重要的是训练范式的系统化。一.LLM建模的三阶段范式当前主流的LLM建模遵循“预训练-指令微调-偏好对齐”三阶段范式阶段核心学习方式关键特征数据1. 预训练无监督学习自建督学习模型自己从海量数据中找规律无需人工标注。海量的原始文本无需标签。2. 指令微调有监督学习模型通过学习“标准答案”来模仿人类行为。人工标注的“指令-回答”对。3. 偏好对齐强化学习模型通过不断试错根据“奖励信号”来优化行为。人类对多个回答的偏好排序数据。在预训练中喂给模型大量数据而自监督学习就是会主动将资料分区归放在指令微调中给模型喂准确的数据但数据集相比与预训练少很多可以预防过拟合也可以提高准确率。强化学习的反馈很慢而我们就是告诉模型回答问题的好坏的强化学习似然函数一定是这个数值的情况下事件发生的概率感觉和全概率公式很像指令微调的核心是构造高质量的“指令-输入-输出”标注数据也就是我们人类总结给模型看让模型进行一个标准答案的学习。不在指令和输入作优化处理对于输出一定要选择最优方案梯度下降二.从LLM到生成式推荐这个非常的简单就是从tranformat模型直接映射过来就行所有的物品就是训练数据集本身就是自监督学习会自我分类。其次是指令微调物品相关性或者场景相关性等的总结第三点强化学习由专业团队对于这些结果进行一个打分
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2434328.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!