AI 通关攻略 · 第 7 关 | Fine-tuning:如何把知识“训练“进 AI 大脑
AI 通关攻略 · 第 7 关 | Fine-tuning如何把知识训练进 AI 大脑故事从一个问题说起RAG 是给 LLM “看外部资料。那么有没有办法把知识直接训练进模型里让模型天生就懂”这就是 Fine-tuning微调 要解决的问题。什么是 Fine-tuningFine-tuning微调 是在已经预训练好的大模型基础上用特定领域的数据进行额外训练让模型在该领域的表现更专业。类比就像一个从医学院毕业的全科医生预训练模型再去进修眼科三个月微调成为眼科专家。全科医学知识还在但眼科变得特别强。和预训练的区别阶段预训练Pre-training微调Fine-tuning数据量海量互联网数据万亿 token少量特定领域数据数千~数万 token成本极高需要成百上千块 GPU 训练数月相对较低单卡或几块 GPU 训练数小时~数天目的让模型学会语言理解和世界知识让模型在特定任务上表现更好谁在做大公司如 OpenAI、Google企业或开发者为什么要 Fine-tuning2.1 预训练模型的局限知识过时训练数据有截止日期新知识模型不知道风格不对通用 LLM 的输出风格可能不符合企业需求行为不稳定同一问题可能每次回答风格差异大幻觉率高特定领域的问题容易胡说八道2.2 微调能解决什么目标微调能帮上忙吗让模型学会某个领域的专业术语和表达方式✅ 非常适合让模型输出格式始终保持一致✅ 非常适合让模型扮演特定角色如客服机器人✅ 非常适合给模型注入全新知识如最新的公司政策❌ 不适合用 RAG 更好减少幻觉⚠️ 有一定帮助但不如 RAG 彻底微调的分类3.1 SFT监督微调Supervised Fine-tuning最传统的方式用有标签的问答对直接训练模型。数据格式输入用户问题输出标准回答优点简单直接效果可预期缺点需要大量高质量标注数据3.2 RLHF人类反馈强化学习Reinforcement Learning from Human Feedback分三步SFT先用监督数据微调一个基础模型奖励模型让人类对模型输出打分训练一个奖励模型来模仿人类偏好PPO 强化学习用奖励模型指导模型优化输出这是 GPT-4、Claude 等顶尖模型训练的核心技术。ChatGPT 的对齐工作就是靠 RLHF 完成的。3.3 LoRALow-Rank Adaptation低秩适配最流行的微调方法尤其是对个人开发者和中小企业。核心思想不训练全部参数只训练一小部分低秩矩阵。对比项全参数微调LoRA训练参数量全部参数如 70B约 0.1%~1% 的参数GPU 显存需求极高需要多卡很低单卡可跑训练速度慢快效果可能更好效果接近全参数微调成本高低LoRA 的类比就像你想让一个人学会新技能全参数微调 重新训练这个人LoRA 给他戴上一副特殊的眼镜只调整少量参数就能解决问题。3.4 QLoRA量化 LoRA在 LoRA 的基础上加上了量化技术训练时把模型参数从 16 位浮点数FP16压缩到 4 位整数INT4进一步降低显存需求让在消费级 GPU如 RTX 3090/4090上微调超大模型成为可能这就是你在学习 OpenClaw 时接触到的技术。 QLoRA 使得在普通电脑上微调 7B、13B 甚至 70B 参数的模型成为现实。3.5 对比一览方法成本效果适用场景SFT中稳定有标注数据的特定任务RLHF极高最强对齐效果最好大厂对齐训练LoRA低接近全参数微调快速微调、中小企业QLoRA极低接近 LoRA个人开发者、消费级 GPU微调的数据准备微调效果好不好数据质量是决定性因素。4.1 数据格式以对话格式为例{“messages”: [{“role”: “system”, “content”: “你是一个专业的法律顾问”},{“role”: “user”, “content”: “合同违约金最高是多少”},{“role”: “assistant”, “content”: “根据《民法典》第五百八十五条…”}]}4.2 数据质量要求要求说明格式一致所有数据保持相同的格式role、content 字段要统一质量高避免错误答案、模糊回答、无关内容风格统一回答的语气、格式、长度要一致适量通常 1000~10000 条高质量数据比 100000 条低质量数据效果好4.3 数据量参考模型规模建议数据量训练时间单卡7B 参数1000~5000 条2~8 小时13B 参数3000~10000 条6~24 小时70B 参数5000~20000 条1~7 天微调 vs RAG这是最常见的对比对比项微调Fine-tuningRAG检索增强生成本质改变模型参数不改变模型增加外部知识知识更新需要重新训练更新知识库无需重训成本较高GPU 训练低向量数据库 检索幻觉减少有一定帮助效果更好基于真实文档适合注入行为模式、风格、特定领域表达实时数据、私有知识、大规模文档冷启动速度慢需要训练快即刻可用最佳实践两者结合RAG → 提供实时知识和事实依据Fine-tuning → 优化回答风格和行为模式举个例子医疗 AI 助手RAG 让它能准确引用最新的医学指南和论文Fine-tuning 让它用专业医生的语气和逻辑思考方式回答微调的常见工具工具特点OpenClaw国产 QLoRA 微调工具支持消费级 GPU适合中文场景LLaMA Factory开源支持多种微调方法中文友好Axolotl开源微调框架支持主流模型Unsloth加速微调显存占用更低Fireworks.ai云端微调服务无需 GPU微调的局限性7.1 不能注入全新知识微调可以让模型更像某个领域的专家但不能可靠地灌输大量新事实。例子你想让模型记住我们公司 CEO 是张三。微调可能让模型更容易说对但不如 RAG 可靠。事实性知识的注入更适合用 RAG。7.2 灾难性遗忘微调可能导致模型忘记预训练时学到的通用能力。解决使用 LoRA/QLoRA只训练少量参数全参数冻结大幅缓解遗忘问题。7.3 训练不稳定模型可能变得不稳定、产生幻觉、或者丧失对话能力“灾难性遗忘”。解决做好质量评估Evals逐步增加训练步数发现问题及时回滚。总结Fine-tuning 在预训练模型基础上 特定领域数据 继续训练 → 专业化主流方法 QLoRA低显存 高效果 低成本最佳拍档 RAG知识 Fine-tuning风格什么时候选微调需要统一输出风格和行为模式特定领域的专业表达方式需要模型更像某个角色不需要频繁更新知识什么时候选 RAG需要实时或大规模知识需要引用权威文档知识需要经常更新需要严格的事实准确性
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2446017.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!