AI基石 | 对齐技术：从 RLHF 到 DPO —— 赋予大模型“三观”的终极进化

news2026/3/13 23:32:43

AI基石 | 对齐技术从 RLHF 到 DPO —— 赋予大模型“三观”的终极进化前言如果 SFT监督微调后的模型是一个“懂事”的练习生那么对齐后的模型就是一个“老练”的专家。练习生虽然知道问答的格式但依然存在两个致命伤幻觉Hallucination为了完成对话它会一本正经地胡说八道。偏见与有害性它可能会输出歧视性言论或教你如何制作危险物品。要解决这些问题靠“喂标准答案SFT”是不够的因为标准答案穷尽不了所有错误。我们需要教给 AI 一种**“审美观”**让它学会在无数种可能的回答中哪一个才是人类最喜欢的。一、 RLHF大模型世界的“胡萝卜加大棒”RLHF (Reinforcement Learning from Human Feedback)是让 ChatGPT 封神的底层技术。它的过程非常精妙像是一个“套娃”系统。1. 核心流程三步走采样与打分让模型针对同一个问题生成 4-5 个不同的回答有的啰嗦有的简练有的有错。人类标注员对这些回答按好坏排序。训练奖励模型 (Reward Model)训练一个“小模型”专门学习人类的打分标准。它的目标是看到好回答给高分看到烂回答给低分。强化学习优化 (PPO)这是最难的一步。让大模型不断生成回答让“奖励模型”给它打分。大模型根据分数的高低利用PPO 算法调整自己的参数目标是拿到最高分。2. 难点PPO 算法的“娇贵”RLHF 虽然强大但 PPO近端策略优化算法在训练时极度不稳定。它对超参数非常敏感且需要同时运行 4 个模型演员模型、评论家模型、参考模型、奖励模型显存压力极大。二、 DPO不需要“中间商”的直接进化由于 RLHF 太复杂斯坦福的研究者在 2023 年提出了DPO (Direct Preference Optimization)。它现在已经成为微调开源模型如 Llama 3的主流对齐方案。1. 核心逻辑数学上的降维打击DPO 的天才之处在于它证明了我们可以绕过训练奖励模型直接通过数学变换将对齐目标转变为一个简单的二元分类问题。RLHF人类排序 - 训练奖励模型 - 强化学习训练 - 得到模型。DPO人类排序 - 直接通过损失函数更新模型。2. 损失函数的直觉DPO 的 Loss Function 实际上在玩一个“拔河游戏”对于每一组偏好数据(x,ygood,ybad)(x, y_{good}, y_{bad})(x,ygood,ybad)它会让模型生成ygoody_{good}ygood的概率变大。它会让模型生成ybady_{bad}ybad的概率变小。三、代码实战使用 TRL 库进行 DPO 微调在大模型开发的第二阶段工具链阶段我们主要使用 Hugging Face 的trl库。1. 准备数据格式DPO 需要的是“三元组”数据prompt(问题),chosen(人类选的好答案),rejected(人类抛弃的烂答案)。{prompt:如何评价人工智能的未来,chosen:人工智能未来充满了机遇但同时也面临伦理和就业的挑战...,rejected:AI 很快就会统治世界人类将变成奴隶哈哈哈哈。}2. 核心训练代码fromtrlimportDPOTrainerfromtransformersimportTrainingArguments# 1. 定义 DPO 配置dpo_trainerDPOTrainer(modelmodel,# 已经过 SFT 后的模型ref_modelNone,# 参考模型用来防止模型跑偏通常可以设为原模型镜像argsTrainingArguments(output_dir./dpo_results,per_device_train_batch_size2,learning_rate5e-7,# DPO 的学习率极低因为只是“微调分寸”remove_unused_columnsFalse),beta0.1,# [核心参数] beta 越大对人类偏好的忠诚度越高train_datasettrain_dataset,tokenizertokenizer,)# 2. 开始对齐dpo_trainer.train()四、 RLHF 与 DPO 的终极对比特性RLHF (PPO)DPO训练稳定性极不稳定容易崩坏非常稳定类似分类任务计算资源极高需运行多个模型较低仅需当前模型参考模型实现难度顶级专家才能玩转开发者友好上限理论上限更高适合超大规模模型在中小型模型上效果极佳五、结语让 AI 拥有“温度”对齐技术是 AI 迈向人类社会的最后一道关卡。预训练给 AI 注入了知识SFT给 AI 穿上了工装RLHF/DPO给 AI 注入了三观。只有经历了对齐AI 才会学会拒绝你的危险指令学会在回答中表现得更加谦卑和客观。下一阶段预告至此我们已经完成了从数学基础到模型训练微调/对齐的完整闭环。接下来我们要把这些“聪明”的模型装进真实的业务系统里。我们将进入第三阶段领域方向选择。首当其冲的就是目前最火的RAG检索增强生成如何让大模型不再胡说八道而是查着你公司的内部文档来回答问题你想先看 RAG 的“外挂大脑”架构还是想看如何用向量数据库FAISS管理你的知识库

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2409197.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！