大语言模型的完整训练周期从0到1的体系化拆解

news2025/7/27 14:01:36

以下部分内容参考了AI。 

 

要真正理解大语言模型(LLM)的创生过程,我们需要将其拆解为一个完整的生命周期,每个阶段的关键技术相互关联,共同支撑最终模型的涌现能力。以下是体系化的训练流程框架:

阶段一:数据工程 - 大模型的根基

  1. 数据采集与清洗

    • 多源异构数据:爬取网页(Common Crawl)、书籍、论文、代码(GitHub)、对话数据等

    • 去重与质量过滤:基于规则/LM的垃圾内容剔除,语言检测(保留多语种但需平衡)

    • 数据安全合规:版权争议内容处理,隐私信息脱敏(如邮箱、电话号码)

  2. Tokenizer设计与训练

    • BPE/WordPiece/Unigram算法选择:平衡词汇表大小与OOV问题

    • 特殊Token设计:<|im_start|>等对话标记,领域相关符号(如代码中的缩进)

    • 多语言支持:通过SentencePiece实现跨语言分词(如LLaMA的20万词表)

阶段二:模型架构设计 - Transformer的进化
  1. 核心架构选择

    • Decoder-only结构:因果注意力掩码(GPT系列)

    • 稀疏注意力优化:FlashAttention-2的IO感知计算(提升3倍训练速度)

    • 位置编码创新:RoPE(相对位置编码,支持长度外推)

  2. 组件级优化

    • 激活函数:SwiGLU(比ReLU更平滑的梯度流)

    • 归一化层:RMSNorm(省去均值计算,适合超大模型)

    • 注意力头机制:GQA(Grouped-Query Attention,平衡KV缓存与效果)

  3. 扩展性设计

    • MoE架构:如Mixtral的8个专家+路由网络,显存消耗仅1/4

    • 3D并行策略:数据并行+流水并行(PipeDream)+张量并行(Megatron-LM)

阶段三:预训练 - 解锁模型潜能
  1. 训练目标设计

    • 标准语言建模:next-token prediction(覆盖95%以上训练步)

    • 填充预测(Fill-in-middle):提升代码生成能力(如StarCoder)

    • 多任务混合训练:在1%数据中混合指令数据(为微调铺垫)

  2. 优化策略

    • 学习率调度:余弦退火+Warmup(例如峰值3e-4,持续20k步)

    • 混合精度训练:FP16+动态Loss Scaling(A100显存节省40%)

    • 梯度裁剪:阈值0.1-1.0(防止梯度爆炸)

  3. 稳定性保障

    • Checkpoint保存:每2小时保存一次(含优化器状态)

    • 监控指标:Perplexity突变为重启信号,梯度范数监测

    • 灾难性遗忘应对:保留5%通用数据作为正则化

 阶段四:对齐与微调 - 从知识到智能

  1. 监督微调(SFT)

    • 数据构造:指令-响应对(如Alpaca的52k数据)

    • 课程学习:先单轮对话后多轮,逐步增加难度

    • 灾难性遗忘缓解:Lora(低秩适配器,仅训练0.1%参数)

  2. 偏好对齐

    • RLHF流程

      1. 奖励模型训练:基于Bradley-Terry模型的对数损失

      2. PPO优化:KL散度约束防止过度优化(β=0.1-0.2)

    • DPO替代方案:直接优化策略梯度,无需显式奖励模型

  3. 持续学习

    • 增量训练:插入新的专家层(如PaLM 2的pathways)

    • 参数隔离:Side Network防止旧知识覆盖

 阶段五:部署优化 - 让模型落地

  1. 推理加速

    • 量化方案:GPTQ(3bit量化,精度损失<1%)

    • 算子融合:将LayerNorm+GEMM合并为单一CUDA Kernel

    • 动态批处理:vLLM的PagedAttention技术

  2. 安全防护

    • 推理时干预:基于概率的拒绝采样(如Llama Guard)

    • 后门检测:激活空间异常值分析(如MAD防御)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2386267.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

历年北京邮电大学保研上机真题

2025北京邮电大学保研上机真题 2024北京邮电大学保研上机真题 2023北京邮电大学保研上机真题 在线测评链接&#xff1a;https://pgcode.cn/problem?classification1 32位二进制串加法 题目描述 输入一个32位的二进制01串&#xff0c;输出这个数1和3后的32位二进制串。 输入…

《仿盒马》app开发技术分享-- 定位获取(端云一体)

开发准备 上一节我们实现了地址管理页面的数据查询和展示&#xff0c;接下来我们要实现的功能是地址添加相关的&#xff0c;我们想实现的功能是地图选点&#xff0c;那么在地图选点之前我们要做的就是先获取用户当前的定位。获取定位后我们拿到经纬度和其他信息&#xff0c;然…

黑马点评--基于Redis实现共享session登录

集群的session共享问题分析 session共享问题&#xff1a;多台Tomcat无法共享session存储空间&#xff0c;当请求切换到不同Tomcat服务时&#xff0c;原来存储在一台Tomcat服务中的数据&#xff0c;在其他Tomcat中是看不到的&#xff0c;这就导致了导致数据丢失的问题。 虽然系…

Mujoco 学习系列(二)基础功能与xml使用

这篇文章是 Mujoco 学习系列第二篇&#xff0c;主要介绍一些基础功能与 xmI 使用&#xff0c;重点在于如何编写与读懂 xml 文件。 运行这篇博客前请先确保正确安装 Mujoco 并通过了基本功能与GUI的验证&#xff0c;即至少完整下面这个博客的 第二章节 内容&#xff1a; Mujoc…

比特授权云外壳加密支持Android 15!

在信息化时代&#xff0c;多数软件供应商需要适配安卓系统&#xff0c;以扩大市场、满足用户需求并提升竞争力。APK作为Android应用的安装包&#xff0c;包含代码、资源、配置文件等运行所需组件&#xff0c;用于在设备端分发和安装应用。企业在分发软件时&#xff0c;需要通过…

uniapp使用sse连接后端,接收后端推过来的消息(app不支持!!)

小白终成大白 文章目录 小白终成大白前言一、什么是SSE呢&#xff1f;和websocket的异同点有什么&#xff1f;相同点不同点 二、直接上实现代码总结 前言 一般的请求就是前端发 后端回复 你一下我一下 如果需要有什么实时性的 后端可以主动告诉前端的技术 我首先会想到 webso…

历年复旦大学保研上机真题

2025复旦大学保研上机真题 2024复旦大学保研上机真题 2023复旦大学保研上机真题 在线测评链接&#xff1a;https://pgcode.cn/problem?classification1 最大公共子串 题目描述 输入 3 个子串&#xff0c;输出这 3 个子串的最大公共子串。 输入格式 输入包含 3 个子串&…

黑马点评-实现安全秒杀优惠券(使并发一人一单,防止并发超卖)

一.实现优惠券秒杀 1.最原始代码&#xff1a; Service public class VoucherOrderServiceImpl extends ServiceImpl<VoucherOrderMapper, VoucherOrder> implements IVoucherOrderService {Resourceprivate ISeckillVoucherService seckillVoucherService;Resourcepriv…

解决论文中字体未嵌入的问题

文章总览&#xff1a;YuanDaiMa2048博客文章总览 解决论文中字体未嵌入的问题 问题描述解决方案&#xff1a;使用 Adobe PDF 打印机嵌入字体&#xff08;WPS版&#xff09;步骤一&#xff1a;打开 PDF 文件步骤二&#xff1a;选择打印到 Adobe PDF步骤三&#xff1a;修改 Adobe…

leetcode 131. Palindrome Partitioning

目录 一、题目描述 二、方法1、回溯法每次暴力判断回文子串 三、方法2、动态规划回溯法 一、题目描述 分割回文子串 131. Palindrome Partitioning 二、方法1、回溯法每次暴力判断回文子串 class Solution {vector<vector<string>> res;vector<string>…

审计报告附注救星!实现Word表格纵向求和+横向计算及其对应的智能校验

在审计工作中&#xff0c;Word附注通常包含很多表格。为了确保附注数字的准确性&#xff0c;我们需要对这些表格进行数字逻辑校验&#xff0c;主要包含两个维度&#xff1a;在纵向上验证合计项金额是否正确&#xff1b;在横向上检查“年末金额年初金额本期增加-本期减少”的勾稽…

人工智能数学基础实验(四):最大似然估计的-AI 模型训练与参数优化

一、实验目的 理解最大似然估计&#xff08;MLE&#xff09;原理&#xff1a;掌握通过最大化数据出现概率估计模型参数的核心思想。实现 MLE 与 AI 模型结合&#xff1a;使用 MLE 手动估计朴素贝叶斯模型参数&#xff0c;并与 Scikit-learn 内置模型对比&#xff0c;深入理解参…

告别延迟!Ethernetip转modbustcp网关在熔炼车间监控的极速时代

熔炼车间热火朝天&#xff0c;巨大的热风炉发出隆隆的轰鸣声&#xff0c;我作为一名技术操控工&#xff0c;正密切关注着监控系统上跳动的各项参数。这套基于EtherNET/ip的监控系统&#xff0c;是我们车间数字化改造的核心&#xff0c;它将原本分散的控制单元整合在一起&#x…

Visual Studio Code插件离线安装指南:从市场获取并手动部署

Visual Studio Code插件离线安装指南&#xff1a;从市场获取并手动部署 一、场景背景二、操作步骤详解步骤1&#xff1a;访问官方插件市场步骤2&#xff1a;定位目标版本步骤3&#xff1a;提取关键参数步骤4&#xff1a;构造下载链接步骤5&#xff1a;下载与安装 三、注意事项 …

计算机视觉---YOLOv1

YOLOv1深度解析&#xff1a;单阶段目标检测的开山之作 一、YOLOv1概述 提出背景&#xff1a; 2016年由Joseph Redmon等人提出&#xff0c;全称"You Only Look Once"&#xff0c;首次将目标检测视为回归问题&#xff0c;开创单阶段&#xff08;One-Stage&#xff09…

爬虫核心概念与工作原理详解

爬虫核心概念与工作原理详解 1. 什么是网络爬虫&#xff1f; 网络爬虫&#xff08;Web Crawler&#xff09;是一种按照特定规则自动抓取互联网信息的程序或脚本&#xff0c;本质是模拟人类浏览器行为&#xff0c;通过HTTP请求获取网页数据并解析处理。 形象比喻&#xff1a;如…

vue3前端后端地址可配置方案

在开发vue3项目过程中&#xff0c;需要切换不同的服务器部署&#xff0c;代码中配置的服务需要可灵活配置&#xff0c;不随着run npm build把网址打包到代码资源中&#xff0c;不然每次切换都需要重新run npm build。需要一个配置文件可以修改服务地址&#xff0c;而打包的代码…

digitalworld.local: FALL靶场

digitalworld.local: FALL 来自 <digitalworld.local: FALL ~ VulnHub> 1&#xff0c;将两台虚拟机网络连接都改为NAT模式 2&#xff0c;攻击机上做namp局域网扫描发现靶机 nmap -sn 192.168.23.0/24 那么攻击机IP为192.168.23.182&#xff0c;靶场IP192.168.23.4 3&…

MySQL---库操作

mysql> create database if not exists kuku3; 1.库操作的语法 create database [if not exists] db_name [create_specification [, create_specification] ...] create_specification: [default] character set charset_name [default] collate collation_name详细解释…

动态规划算法:字符串类问题(2)公共串

0 前言 上节课我们已经讲述了使用动态规划求取回文串长度与数量的方法&#xff08;和本节课关系不大&#xff0c;感兴趣可以去看字符串类问题&#xff08;1&#xff09;回文串&#xff09;&#xff0c;这节课我们继续探索字符串问题中的动态规划问题。 进入本篇文章前&#x…