大模型训练全景:从预训练到对齐的技术炼金术

news2026/5/7 7:14:03
写在前面如果你曾好奇 ChatGPT、DeepSeek 或 Claude 是如何从一堆代码变成能写诗、写代码、做推理的智能体这篇文章将为你拆解那条从原始文本到对齐模型的完整流水线。无论你是刚入门的 AI 开发者还是希望理解底层原理的技术管理者读完这篇你将对大模型训练的每个环节建立清晰的工程认知。一、为什么大模型训练是一条流水线而非一个脚本很多初学者第一次接触大模型训练时会误以为这就是个加大版的深度学习训练脚本——换更大的模型、更多的数据、跑更久。但真实世界的工业级大模型项目更像一座炼油厂原始文本/代码/多模态数据 │ ▼ ┌─────────────────┐ │ 数据工程 │ 清洗、去重、配比、打包、token化 └─────────────────┘ │ ▼ ┌─────────────────┐ │ 预训练 (Pre-train) │ 数万亿 tokens几十天输出 Base 模型 └─────────────────┘ │ ▼ ┌─────────────────┐ │ 中训/持续预训练 │ 注入数学、代码、推理等强化口味 └─────────────────┘ │ ▼ ┌─────────────────┐ │ SFT 监督微调 │ 数十万~数百万指令对教模型听人话 └─────────────────┘ │ ▼ ┌─────────────────┐ │ 对齐 (Alignment)│ RLHF/DPO/GRPO让模型有用且无害 └─────────────────┘ │ ▼ ┌─────────────────┐ │ 蒸馏 (Distillation)│ 从大模型提炼小模型旁路可选 └─────────────────┘这条流水线的每个环节都在解决不同的问题任何一个环节掉链子最终模型的表现都会大打折扣。接下来我们逐一拆解。二、预训练Pre-training让模型见过世界2.1 核心任务预测下一个 Token预训练的目标非常朴素——给定一段文本的前缀预测下一个 token 是什么。这被称为自回归语言建模Causal LM损失函数就是标准的交叉熵Cross-Entropy。# 伪代码示意loss-log(P(next_token|previous_tokens))这个过程本质上是在让模型学习语言的统计规律词语搭配、语法结构、世界知识、逻辑关系。经过数万亿 tokens 的训练后模型变成了一个**“文字接龙高手”**——但它还不懂指令只是会续写。2.2 工程挑战不是算法是基础设施预训练阶段的真正难点不在于算法创新而在于工程极限挑战具体表现解决思路数据规模13T tokens 的数据出错一轮损失几千万美金建立可复用、可审计的数据流水线训练稳定性loss spike、NaN、梯度爆炸checkpoint 回滚 跳 batch硬件利用率千卡训练几十天MFU模型浮点利用率从30%抠到50%3D并行 通信重叠 FP8故障容忍单卡 MTBF 几千小时意味着每天都有卡挂弹性调度 自动重启关键概念MFUModel FLOPs Utilization这是衡量训练效率的核心指标。理论峰值算力 vs 实际有效算力的比值。业界头部团队如 DeepSeek-V3、LLaMA-3-405B能将 MFU 做到50% 以上这意味着他们榨干了硬件的每一滴性能。2.3 数据工程决定模型上限的隐形战场预训练的数据不是越多越好而是越干净、越均衡越好。头部团队实际监控的维度包括 有效 tokens去重过滤后的净 tokens而非原始抓取量语言/领域分布刻意补足中文、代码、数学、STEM、长文本文档长度分布过短128 tokens和过长64K都要特殊处理困惑度Perplexity分布用小模型打分剔除乱码和重复模板毒性/偏见评分防止后续对齐阶段需要花大力气洗合成数据占比2024年后新监控点过高会放大模型幻觉经验法则把数据指标做成每批数据的data card与训练 checkpoint 一起归档是可审计训练流程的基础 。三、中训/持续预训练Mid-train / Continued-PT把通才拉向硬核这是 2024 年后越来越标准化的阶段。在 base 模型快训完时调整数据配比显著加权数学、代码、STEM、推理类数据同时往往把上下文长度从 4K/8K 扩到 32K/128K/1M 。典型案例DeepSeek-V3后期阶段把上下文从 4K 扩到 32K 再到 128K配合 YaRN 类方法Qwen2.5在 Continued-PT 阶段使用更大比例的代码/数学数据base 模型 MATH/HumanEval 分数大幅上升LLaMA-3有类似的 “annealing” 阶段——降低学习率、换数据配比、刷高质量数据工程意义在不重新花一遍预训练钱的前提下用5%~10% 的额外算力拿到显著的能力跃升。四、SFTSupervised Fine-Tuning教模型听人话4.1 核心任务从续写到对话预训练后的模型只是会接龙SFT 通过高质量的**指令-回答对instruction pairs**教它理解人类的请求格式并给出恰当回应 。数据格式示例{instruction:请解释量子纠缠并用生活类比说明,input:,output:量子纠缠是量子力学中两个粒子形成的特殊关联态...可以用双胞胎的心灵感应来类比...}训练细节Loss Mask只在模型的回答部分计算损失问题部分 mask 掉长样本打包Packing把多条短样本拼到一个序列里用 attention mask 隔离榨干显存利用率质量 数量一条 GPT-4 生成的高质量答案胜过十条人工糙活4.2 训练代码示例fromtransformersimportAutoModelForCausalLM,AutoTokenizer,Trainer,TrainingArguments# 加载预训练好的 Base 模型modelAutoModelForCausalLM.from_pretrained(your_base_model)tokenizerAutoTokenizer.from_pretrained(your_base_model)# 数据预处理构建 instruction-response 对defpreprocess(examples):texts[f### Instruction:\n{inst}\n\n### Response:\n{resp}forinst,respinzip(examples[instruction],examples[output])]returntokenizer(texts,truncationTrue,max_length2048,paddingmax_length)# 配置训练参数training_argsTrainingArguments(output_dir./sft_model,per_device_train_batch_size4,gradient_accumulation_steps4,# 模拟更大 batchnum_train_epochs3,learning_rate2e-5,warmup_ratio0.03,lr_scheduler_typecosine,bf16True,# 混合精度训练logging_steps10,save_strategyepoch)trainerTrainer(modelmodel,argstraining_args,train_datasettokenized_dataset)trainer.train()经过 SFT 后模型变成了**“能听懂指令的模型”Instruct Model**但它可能还不够好——可能说错话、可能有偏见、可能不够有用。这就需要进入下一阶段对齐。五、对齐Alignment让模型对得上人这是让 ChatGPT 从能说话变成说得好的核心阶段。当前业界主流的对齐技术包括 RLHF、DPO、GRPO 等 。5.1 RLHF基于人类反馈的强化学习经典但昂贵三步走流程Step 1收集偏好数据给标注员同一个问题的两个回答让其按多维度评估维度回答A较差回答B优选内容量子纠缠就是两个粒子有关联量子纠缠是量子力学中两个或多个粒子形成的特殊关联态…爱因斯坦曾称其为幽灵般的超距作用有帮助性过于简化准确、完整、有历史背景安全性无风险无风险结果❌✅Step 2训练奖励模型Reward Model用成千上万组偏好对比数据训练一个裁判模型——它能自动给任何回答打分。Step 3强化学习优化PPO让大模型生成回答 → 奖励模型打分 → 通过 PPO 算法调整模型参数使其朝着高分方向进化。RLHF 的痛点流程太长SFT → RM → PPO任何一环出问题都影响最终效果资源消耗大需要同时维护 actor、critic、reward、reference 四个模型超参敏感学习率、KL 惩罚系数等调参困难奖励作弊Reward Hacking模型可能找到骗过奖励模型的捷径5.2 DPO直接偏好优化开源社区的主流选择DPO 的核心洞察是RLHF 里的奖励模型和强化学习其实可以被一个巧妙的数学变换折叠掉。核心思想直接在偏好对(chosen, rejected)上做对比损失无需训练奖励模型无需在线采样。数学直觉# DPO 损失函数示意loss-log(σ(β*(logπ(chosen|prompt)-logπ(rejected|prompt))))其中π是当前策略模型β是 KL 正则强度控制偏离原始分布的程度σ是 sigmoid 函数DPO 的优势流程极简不需要 reward model不需要 PPO不需要在线 rollout训练稳定本质上是监督学习避免了 RL 的不稳定性成本低计算成本比 RLHF 降低40-75%DPO 训练示例使用 TRL 库fromtrlimportDPOTrainerfromtransformersimportAutoModelForCausalLM,AutoTokenizer modelAutoModelForCausalLM.from_pretrained(your_sft_model)tokenizerAutoTokenizer.from_pretrained(your_sft_model)# 数据格式{prompt: ..., chosen: 好答案, rejected: 坏答案}trainerDPOTrainer(modelmodel,tokenizertokenizer,beta0.1,# KL 正则强度max_length2048,train_datasetdpo_dataset)trainer.train()5.3 GRPO组相对策略优化推理模型的训练利器GRPO 由 DeepSeek 提出在训练推理模型如 DeepSeek-R1中大放异彩 。核心创新去掉 critic 模型对同一个 prompt 生成一组回答用组内相对优势做优化。# GRPO 核心逻辑示意# 1. 对同一个 prompt生成 G 个回答responses[model.generate(prompt)for_inrange(G)]# 2. 计算每个回答的奖励如答案正确性、格式合规性rewards[reward_fn(r)forrinresponses]# 3. 组内归一化计算相对优势mean_rewardmean(rewards)advantages[r-mean_rewardforrinrewards]# 4. 用优势值更新策略loss-sum(advantages[i]*log_prob(responses[i])foriinrange(G))GRPO 的优势不需要额外的价值模型critic节省显存组内归一化天然缓解了奖励尺度问题特别适合可验证奖励的任务数学、代码GRPO 的挑战熵坍缩Entropy Collapse训练初期策略熵快速趋近于0模型失去探索性。可通过 DAPO 调整 epsilon 边界、动态温度调度缓解奖励坍缩Reward Collapse组内归一化抹平多奖励信号的相对差异。可采用 GDPO 对各奖励分量独立标准化后加权求和5.4 对齐算法选择指南算法适用场景复杂度成本性能上限RLHF (PPO)追求极致对齐效果、预算充足高最高最高DPO企业级微调、开源模型对齐低低高接近 PPOGRPO推理模型训练、可验证奖励任务中中高推理场景RLAIF预算有限、对安全要求不极端低最低中约 RLHF 90%行业共识除非你是 OpenAI否则 DPO 是性价比最高的对齐方案。只有年标注预算 50 万美元以上且对安全有极致要求时才上完整 RLHF 。六、训练流水线中的关键工程实践6.1 3D 并行千卡训练的标配当模型大到单卡装不下时需要将模型切开分布在多张卡上 并行方式切什么通信开销何时使用DP数据并行切 batchall-reduce 梯度永远使用TP张量并行切 weight 矩阵all-reduce activation单层太大装不下单卡PP流水线并行切 layerP2P send/recv模型层数很多、机间带宽不够SP序列并行切 sequenceall-gather/reduce-scatter长上下文训练32KEP专家并行切 MoE expertsall-to-allMoE 模型专用典型组合以 DeepSeek-V3 / Qwen2.5-72B 为参考TP 8单机内 NVLinkPP 8~16跨机EP 8~64MoE 专用DP / ZeRO剩余 GPU6.2 监控训练事故的X光片以下曲线是训练工程师的生命线 Loss 曲线应该平滑下降出现 spike 需立即排查Grad Norm梯度范数反映参数更新幅度MFU硬件利用率低于 30% 说明并行策略有问题Expert BalanceMoE 模型专家负载均衡度经验事故永远不会提前预约但曲线会。养成实时监控的习惯比加卡更重要 。6.3 故障容忍千卡训练的必修课千卡训练几十天每天都有卡挂。工程上需要弹性 checkpoint每 100-500 steps 自动保存故障自动检测与重启NCCL 超时、ECC 错误、OOM数据 snapshot确保回滚后能精确定位到具体 batch七、2026 年的新趋势后训练Post-Training的演进7.1 从三阶段到预训练 后训练的二元视角业界越来越倾向于将 SFT Alignment 统一视为**后训练Post-Training**阶段 。这种视角更灵活能容纳更多新兴技术持续预训练Continual Pre-training在特定领域数据上继续预训练模型融合Model Merging如 TIES-Merging合并多个微调模型蒸馏Distillation从大模型提炼小模型校准与鲁棒性Dual-Align、CAPT 等7.2 ORPOSFT 与对齐合二为一ORPOOdds Ratio Preference Optimization认为 SFT 和 DPO 两个阶段可以合并 。它在微调的同时通过赔率Odds Ratio惩罚模型产生坏答案的概率。优势节省一半训练时间显存占用更低。7.3 合成数据驱动的训练Nemotron-4-340B 的训练披露了一个惊人数据98% 的 SFT 和 DPO 数据来自合成仅 20K 人类标注。这标志着合成数据生成模型如 Nemotron、GPT-4成为基础设施人类标注从生产转向质检和安全把关数据标注成本结构发生根本性变化八、写给技术人员的行动指南如果你想亲手跑一遍这条流水线单卡起步用 nanoGPT 在单卡 A100 上从零训一个 100M 的 char-level 模型走完 data → tokenizer → forward → backward → ckpt → eval分布式入门在 2 张卡上跑 FSDP 训 1B 模型理解 DP、shard、all-reduce工业级框架在 8 张卡上跑 Megatron-LM打开 TP2, PP2, DP2观察 MFU、bubble、通信对齐实践用 TRL 库跑通 SFT → DPO 完整流程读论文算账读 Chinchilla 和 DeepSeek-V3 论文亲手算一次 FLOPs 账关键学习资源资源用途TRL (Transformer Reinforcement Learning)开源对齐训练库支持 SFT/DPO/GRPOMegatron-LM / DeepSpeed工业级分布式训练框架Axolotl简化版微调工具适合快速实验Weights Biases训练实验跟踪与可视化结语大模型训练不是魔法而是一条精密编排的工业化流水线。从预训练的见过世界到 SFT 的学会听话再到对齐的对得上人每个阶段都在解决不同层面的问题。理解这条流水线的意义在于当你知道每个环节在做什么、卡点在哪、业界主流选型是什么你就能在项目中做出更明智的决策——是花更多钱在算力上还是投资数据质量是用 DPO 快速上线还是上 RLHF 追求极致是自建标注团队还是采购合成数据服务正如一位训练工程师所说“数据决定上限算法决定效率工程决定可行性。”在这条流水线上三者缺一不可。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2590732.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…