大模型后训练：小白也能掌握的进阶秘籍，收藏提升技能！

news2026/4/10 22:04:38

后训练是提升大模型性能的关键步骤通过微调和对齐技术优化预训练模型。文章详细解析了后训练的理论与方法涵盖微调SFT、强化学习RL及对齐技术并以Llama 3为例展示实际操作流程。核心内容包括后训练重要性——突破预训练瓶颈提升模型泛化能力流程详解——从偏好pair样本生成到指令微调及持续迭代优化关键技术——LoRA、DPO、CoT等高效微调与对齐方法实战案例——DeepSeek R1与RLHF的融合应用。适合开发者系统学习后训练技术快速提升大模型实战能力。本文探讨了后训练的重要性、方法以及最新进展。文章将包含理论分析与实际操作指南适合希望深入了解并应用这些技术的开发者。什么是后训练后训练Post-Training是指在预训练模型的基础上针对特定的任务或数据集进行额外的训练。这个阶段通常涉及到微调Fine-tuning和对齐 Alignment即调整预训练模型的参数以适应新的任务。黑色预训练阶段红色后训练阶段紫色推理测试阶段为什么要进行后训练Post-training重要性-后训练扩展律Post-training scaling laws 已经出现Pre-traing阶段的scaling law计算量C模型参数量N ,数据大小D当不受其它两个因素制约时模型性能与每个因素均呈幂等关系三者满足随着模型尺寸的逐渐增大预训练阶段参数扩展带来的边际收益开始递减基于RL的post-trainging将会成为下一个突破点自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正仅依靠生成式方法和扩大参数规模收益有限需要寻找额外的Scaling LawsGPTGenerative Pretrained Transformer系列是典型的自回归语言模型。在 GPT 模型中它的生成过程是基于自回归机制。例如在文本生成任务中给定一个初始的输入文本序列可以是一个单词、一个句子或一段话模型会预测下一个单词出现的概率分布。假设输入序列是 “The cat”模型会计算在这个序列之后不同单词如 “runs”“jumps”“sleeps” 等出现的概率然后从这个概率分布中采样一个单词作为下一个生成的单词。新的扩展维度Al能力的提升不再局限于预训练阶段还可以通过在 Post-Training 阶段中提升RL训练的探索时间和增加模型推理思考时间来实现性能提升即Post-Training Scaling Laws 以及 Test-time scaling Resoning 随着训练时的计算量和测试时的计算量的增加模型性能也会随之提升。常见大模型后训练流程这里以Llama 3来示例1.持续通过人工标注或机造方式生成偏好pair样本训练Reward Model2.基于当前能力最好的模型随机采集一批 {Prompt} 每个Prompt拿最好的模型做 K 次数据生成采样每个Prompt就得到 K 条 Prompt,Responsek 数据3.拒绝采样对第2步采样 K 个 Prompt,Responsek 数据用Reward Model打分并从中选取打分最高 topN 条样本。作为指令微调的精选样本训练SFT Model4.训完SFT Model再通过持续收集的偏好对样本同步骤1做对齐学习Llama使用的是DPO。最终得到了一个比当前模型更好的模型5.持续做步骤1~步骤4飞轮迭代优化模型。训练数据SFT data采样模型多次让RM选出最好的回复作为SFT data的一部分。部分细节如下采样什么模型两种情况。迭代中表现Avg score最好的模型或者在某个particular capability上表现最好的模型。采样多少次K10~30即一般采样10-30次。prompt哪来人工标注的prompts。并在后训练迭代后期引入特殊的system prompts。Preference data采样什么模型部署多个不同数据配比和对齐方法训练的模型针对每个prompt选取两个不同的模型进行采样。原因不同模型能够在不同的能力维度上表现出差异数据质量和多样性更好。偏好等级四个等级显著更好significantly better更好better稍微更好slightly better略微更好marginally better。允许修改标注同学可以进一步优化chosen response最后edited chosen rejected。迭代式难度最后随着模型改进逐步提高prompt复杂度。微调 Fine-tuning微调是指在预训练模型的基础上使用特定任务的数据集进行进一步训练以使模型适应特定任务或领域。其目的是优化模型在特定任务上的性能使模型能够更好地适应和完成特定领域的任务。SFT (Supvised Fine tuning ) 微调方法全量微调 VS 部分微调全量微调 Full Fine-TuningFFT是指在预训练模型的基础上使用特定任务的数据集对模型的所有参数进行进一步训练以使模型更好地适应特定任务或领域的过程。部分微调 PEFTparameter-efficient fine-tuning参数高效微调一种针对大型预训练模型的微调技术旨在减少训练参数的数量从而降低计算和存储成本同时保持或提升模型性能仅微调模型中的一小部分参数常见方法如下选择参数子集重新参数化LoRALow-Rank Adaptation 使用低秩表示重新参数化模型权重核心思想是将权重矩阵 W 分解为两个低秩矩阵 A 和 B 的乘积即其中是预训练模型的原始权重矩阵。A 和 B 是两个低秩矩阵其维度远小于 W。通过这种方式LoRA 只需要更新 A 和 B 的参数而不是整个 W。这显著减少了需要更新的参数数量从而提高了微调的效率。添加额外的可训练的tokenPrompt-tuning对齐 Alignment对齐是指通过各种技术手段使模型的输出与人类的偏好和价值观对齐确保模型的行为和决策符合人类社会的期望和标准。对齐技术旨在解决模型可能带来的潜在问题如生成有害内容、不符合伦理的输出等。强化学习是实现模型对齐的核心工具即可通过人类反馈强化学习RLHFReinforcement Learning from Human Feedback的方式通过训练奖励模型对齐模型输出与人类偏好强化学习中需要用到的关键组成部分如下带有人类偏好反馈的标签数据input,accept,reject奖励模型Reward Model- 奖励信号Rule-based RMModel-based RM强化学习策略优化算法DPO (Direct Preference Optimization) 直接偏好优化PPO Proximal Policy Optimization近端策略优化GRPOGroup Relative Policy Optimization组内相关策略优化算法强化学习策略优化算法 DPO VS PPO VS GRPORHLF即基于人类反馈的强化学习的训练流程中的涉及到的策略优化算法常见的有以下几种PPOProximal Policy Optimization近端策略优化是 OpenAI 在2017年提出的一种基于策略梯度Policy Gradient的强化学习算法。优化过程是构建一个损失函数需要根据奖励模型的奖励信号和新旧策略差异计算损失函数并且会限制策略更新的幅度保证了模型的稳定性。损失函数其中是新旧策略概率之比反映新旧策略的改进情况。是优势估计值反映智能体选择某个动作的好坏。clip是剪辑机制反映经过剪辑后的改进结果防止进步过快或退步过多保待稳定的训练过程。选择最小值 1基于新策略直接计算出来的值2经过剪辑后的值保持训练的稳定性。DPO(Direct Preference Optimization)直接偏好优化优化过程相对直接。不需要训练一个单独的奖励模型。直接利用人类偏好排序数据概率比来构建目标函数并优化策略目标最大化用户偏好数据的生成概率同时减少用户非偏好数据的生成概率无需明确的奖励模型更多依赖于用户提供的偏好排序或比较数据不需要同环境进行交互适用于需要从静态数据如用户的偏好反馈中学习的任务并且高度依赖用户反馈的数据质量GRPOGroup Relative Policy Optimization组内相关策略优化算法与PPO相比无需额外训练价值模型通过从同一问题的多个输出中计算平均奖励来替代价值函数的作用从而减少了显存和计算负担但依赖于奖励模型的评分来区分输出的好坏这对于奖励模型的设计也提出了更高的要求。强化学习 RMReward Model奖励模型的优化思路在传统的强化学习RL框架中智能体通过与环境的交互来学习以最大化累积奖励。但这种方法有时会面临奖励设计困难和学习效率低下的问题。为了解决这些难题RLHF (Reinforcement Learning from Human Feedback)引入人类作为奖励信号的来源。人类反馈可以采取多种形式包括直接的奖励信号、排名反馈、偏好比较等。LLM as a judge判别式的RM的准确率不足可以用于事实性输出风格等的判定Generative RM先CoT自然语言推断的再给出奖励信号Let’s verfify step by step Critic Model随着大模型的不断迭代其输出的内容越来越准确错误也变得更加隐蔽就算是专业的AI训练师也很难察觉那些错误所在open ai训练了CriticGPT这种谈论家模型用于加强RLHF但注意用model去建模reward可能会因为过度对齐人类的偏好而引入biasOutcome-based Reward ModelORM 到 Process-based Reward ModelPRM 向着模型能生成正确的推理能力的方式去优化PRM过程奖励模型是在生成过程中分步骤对每一步进行打分是更细粒度的奖励模型。ORM结果奖励模型是不管推理有多少步对完整的生成结果进行一次打分是一个反馈更稀疏的奖励模型。注意reward model可能会被hacking的问题可以将不同的reward model混在一起训练让模型训多轮后也比较难找到RM的漏洞。推理阶段Test-time computation的优化思路快思考 - 慢思考系统1思维一次性生成完整解法的方法Next Token Prediction 缺乏详细的中间推理步骤模型一开始可能会犯错错误会传播导致最终生成的答案也是错的系统2思维模仿人类通过更慢更深的思考过程进行推理CoT: Training-Free的方式通过分步的方式生成一系列中间推理步骤从而提升模型推理能力Let’s think step by step Best of N MCTS Monte Carlo Tree Search 蒙特卡洛树搜索 : 在Token或字句级别分解建模成节点后提供奖励信息Process-based-Reward-ModelToken级别的节点每个节点对应生成序列中的一个Token。通过MCTS模型可以探索不同的Token序列最终生成更连贯的响应句子级别的节点在复杂推理任务中每个节点可以代表一个完整的句子或推理步骤帮忙模型更好地处理多步推理任务STaRSelf - Taught Reasoner 教会模型从内部深入思考问题与答案的关联STaR 的核心思路是利用 LLM 已有的推理能力迭代式的引导模型产生合理推理过程 (Rationales) 的能力井将 Rationales 融入到训练过程内让模型学会进行推理通过few shot example 来prompt模型生成答案和推理过程过滤出正确的数据集生成微调数据集来微调deepseek-R1 强化学习训练时使用的prompt格式要求模型将推理的过程的思路输出到标签中引导模型进行慢思考Quiet-STaR (Self - Taught Reasoner)通过控制模型在生成文本时自动生成推理步骤即理由或rationales从而提高模型的预测能力和推理性能在训练阶段先基于前序token停下进行think阶段产出从多个thought选择某一个thought加上前序token进行预测下一个token然后经过奖励模型的评判进行反馈学习在推理阶段利用think及talk对应的prompt来引导进入慢思考在think结束后再进行talk微调SFT VS 强化学习RLSFT-示范给模型怎么样做是对的RL-在环境中不断的试错累积奖励理论上RL能榨干模型能突破人类的上限但reward要能写好SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-trainingRL 在泛化方面的优势RL特别是在基于结果的奖励下进行训练时能够在基于规则的文本和视觉变体中实现泛化。这表明强化学习在处理不同情境和变化时具有更强的适应能力。强化学习通过与环境的交互不断调整策略从而能够学习到更通用的知识和行为模式。SFT 在记忆方面的倾向SFT 则倾向于记忆训练数据在分布外的场景中难以很好地泛化。这是因为监督微调主要是通过最小化预测与真实标签之间的误差来调整模型参数容易使模型过度拟合训练数据。SFT 对 RL 训练的重要性尽管 RL 在泛化方面表现出色但文章指出 SFT 对于有效的 RL 训练仍然至关重要。SFT 能够稳定模型的输出格式为后续的 RL 训练奠定基础。没有经过 SFT 的模型可能在输出格式上不稳定导致 RL 训练难以收敛或效果不佳。以DeepSeek R1示例后训练DeepSeek-R1对于test-time阶段的处理提及对于RPM及MCTS等手段未被证实有效果R1-ZERO仅使用RL未使用SFTReward Model未使用RPM等相对复杂的模型而是仅使用的了rule-based的RM强化学习算法使用的自家的GPPO相对于PPO等更加的简单也更考验RM的设计能力给后续的推理模型后训练很多启发仅RL也可以得到非常好的推理效果。总结–RL - deepseek R1 zreoSFTRL - deepseek R1 llama3SFT - 蒸馏的一些小模型test-time scaling - openai o1普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用大模型作为其中的重要组成部分正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力广泛应用于自然语言处理、计算机视觉、智能推荐等领域为各行各业带来了革命性的改变和机遇。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌02适学人群应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。vx扫描下方二维码即可【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2499512.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！