01 | 大模型微调 | 从0学习到实战微调

一、导读

作为非AI专业技术开发者（我是小小爬虫开发工程师😋）

本系列文章将围绕《大模型微调》进行学习（也是我个人学习的笔记，所以会持续更新），最后以上手实操模型微调的目的。

(本文如若有错误的地方，欢迎批评指正)

在这里插入图片描述

💪 为什么要学习AI呢？

作为一名爬虫开发工程师，我深知技术领域的不断变革与发展
如今，AI 已然成为时代浪潮的核心驱动力，就如同 Windows 操作能力是从业者的基础技能，
我坚信未来 AI 开发应用必将成为程序员不可或缺的能力标签。

你可以阅读我下列文章

✅ 关于langchain的系列文章（相信我把Langchain全部学一遍，你能深入理解AI的开发）

✅关于Langchain的实战案例（自认为本地问答机器人的案例写的很好，很好理解ReAct）
Langchain-实战篇-搭建本地问答机器人-01
都2024了，还在纠结图片识别？fastapi+streamlit+langchain给你答案！

✅关于Agent智能体开发案例（MCP协议）
在dify构建mcp，结合fastapi接口，以实际业务场景理解MCP

✅ 推荐阅读一下transformer 文章，以便能更好的理解大模型

Transformer模型详解（图解最完整版）

Attention Is All You Need (Transformer) 论文精读

✅ 除了在 CSDN 分享这些技术内容，我还将在微信公众号持续输出优质文章，内容涵盖以下板块：
（当然我也希望能够跟你们学习探讨😀）

关注😄「稳稳C9」😄公众号

爬虫逆向：分享爬虫开发中的逆向技术与技巧，探索数据获取的更多可能。
AI 前沿内容：紧跟 AI 发展潮流，解读大模型、算法等前沿技术动态。
骑行分享：工作之余，用骑行丈量世界，分享旅途中的所见所感。

搜索「稳稳C9」公众号

在这里插入图片描述

二、AI发展四轮浪潮

在这里插入图片描述

1、弱人工智能

1950 - 2000 年间，众多关键研究成果不断涌现，从理论基础的建立到各种算法和模型的提出，为人工智能后续发展构筑了坚实的基石。

参考文章：A History of AI (Part 1)人工智能简史（第1部分）

感知机（1958年）：Frank Rosenblatt的论文为复杂神经网络和机器学习算法奠定基础。感知机作为人工神经网络基本单元，可根据输入数据调整权重学习和决策。
反向传播算法（1986年）：David E. Rumelhart等人提出的反向传播算法，能训练多层网络，使内部隐藏单元提取任务特征，与早期方法区分开来，推动深度学习发展。
决策树（1986年）：J. R. Quinlan的论文介绍ID3算法，是构建决策树的基础方法，后续研究围绕处理噪声和不完整数据改进算法。决策树用于分类和回归，ID3算法基于信息增益递归划分数据。
隐马尔可夫模型（1989年）：L.R. Rabiner的论文全面介绍隐马尔可夫模型（HMMs）及其在语音识别中的应用。HMMs基于马尔可夫过程，包含不可观测隐藏状态，解决评估、解码和学习三个基本问题。
多层前馈网络（1989年）：Kurt Hornik等人证明多层前馈网络是通用近似器，理论上能以任意精度逼近复杂函数，为神经网络广泛应用提供理论依据。
支持向量机（1992年）：Bernhard E. Boser等人提出支持向量机（SVMs），通过最大化类间间隔和自动调整模型复杂度，在分类任务中表现出色，如光学字符识别。
装袋法（1996年）：Leo Breiman提出装袋法（Bagging），属于集成学习方法，通过自助采样生成多个模型并聚合结果，降低预测方差，提高准确性。
卷积神经网络（1998年）：Yann LeCun等人的研究展示卷积神经网络（CNNs）在识别二维形状（如手写字符）上的优势，并介绍图变换网络（GTNs）用于全局训练多模块系统，推动文档识别等应用发展。

2、机器学习（统计机器学习）

在这里插入图片描述

参考文章：A History of AI (Part 2) 人工智能的历史（第2部分）

2000 - 2010 年间人工智能领域的重要研究成果，展示了该时期人工智能技术的多元发展。

随机森林（2001年）：Leo Breiman提出随机森林，这是一种集成学习方法，结合多个基于随机特征子集训练的决策树，用于分类和回归。相比Adaboost，它对噪声更具鲁棒性，不易过拟合，还能通过内部估计监控误差等指标，衡量变量重要性。
进化算法（2002年）：K. Deb等人提出NSGA - II算法，改进了多目标进化算法。该算法降低了计算复杂度，引入精英策略保留最优解，避免指定共享参数，在收敛性和求解多样性上表现更优，推动了多目标优化领域发展。
潜在狄利克雷分配（2003年）：David M. Blei等人提出LDA，这是一种用于离散数据（如文本）的生成式概率模型。它将文档视为主题的混合，主题视为单词的混合，通过变分方法和EM算法进行参数估计，为文本主题建模提供了有效框架，促进了文档分类等应用发展。
降维（2006年）：Geoffrey E. Hinton和R. R. Salakhutdinov发现，正确初始化的深度自编码器网络能学习到比主成分分析（PCA）更优的低维数据表示。自编码器可将高维数据压缩为低维编码并重建，该研究为降维提供了新的有效方法。
高维数据可视化（2008年）：Laurens van der Maaten和Geoffrey Hinton提出t - SNE技术，用于高维数据可视化。它改进了随机邻居嵌入（SNE）方法，更易优化，能减少数据点在图中心聚集的问题，在多尺度揭示数据结构方面表现出色，成为高维数据可视化的标准技术。
ImageNet（2009年）：Jia Deng等人构建了大规模图像数据库ImageNet，基于WordNet结构组织图像，规模大、多样性丰富且标注准确。它为图像识别和分类模型的训练提供了大量数据，推动了相关领域的发展。

3、深度学习

在这里插入图片描述

参考文章：A History of AI (Part 3) 人工智能的历史（第3部分）

2010 - 2014 年人工智能领域最重要的研究论文，展示了这一时期人工智能在多个关键方向的重大进展。

图像识别突破：AlexNet利用深度卷积神经网络对130万张高分辨率图像进行分类，凭借非饱和神经元、GPU加速和新正则化方法，大幅降低错误率，推动计算机视觉发展。
自然语言处理进展：提出新模型架构生成词向量，在词相似性任务中表现出色，计算成本低，成为现代自然语言处理应用的基础；基于LSTM的序列到序列学习方法，在机器翻译任务中超越传统方法，为神经机器翻译等应用奠定基础；引入软对齐机制，改进了神经网络机器翻译，解决了固定长度向量的瓶颈问题，引入注意力机制影响众多AI领域。
生成模型创新：变分自编码器（VAE）提出随机变分推理和学习算法，解决复杂概率模型的推理和学习问题，推动生成模型发展；生成对抗网络（GANs）通过生成模型与判别模型对抗训练，能生成高度逼真的合成数据，在图像合成等领域应用广泛。
优化与正则化技术提升：Dropout通过随机丢弃神经元防止神经网络过拟合，在多领域提升网络性能；Adam算法基于自适应估计低阶矩进行随机优化，计算高效、内存需求小，适用于多种场景，显著提高机器学习模型训练效率。

2015 - 2016 年人工智能领域的重要研究论文，展现了该时期 AI 在深度学习、图像识别、强化学习和目标检测等多方面的关键进展。
参考文章：A History of AI (Part 4) 人工智能的历史（第4部分）

批量标准化（Batch Normalization）：论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》提出此技术，通过归一化层输入减少内部协变量移位，加速深度学习模型训练，可使用更高学习率，部分情况还能省去Dropout，提升了模型精度，推动了AI应用发展。
Inception：《Going Deeper With Convolutions》介绍了Inception深度学习模型，其创新设计提高了网络计算资源利用率，在不增加计算量的同时加深加宽网络。GoogLeNet作为该架构的具体实现，在图像识别竞赛中表现优异，为神经网络设计树立了新标杆。
Deep Q：《Human - level control through deep reinforcement learning》创建了深度Q网络（DQN），能直接从高维感官输入学习成功策略。在Atari 2600游戏测试中，其性能超越以往算法，达到专业人类玩家水平，开创了深度学习与强化学习结合的先河。
Region - based Convolutional Neural Network：《Faster R - CNN: Towards Real - Time Object Detection with Region Proposal Networks》提出的Faster R-CNN，将区域提议和目标检测集成到一个高效系统中，通过共享卷积层提高了目标检测速度和精度，推动了实时目标检测应用的发展。
U - Net：《U - Net: Convolutional Networks for Biomedical Image Segmentation》介绍的U - Net用于生物医学图像分割，利用数据增强高效使用有限标注样本，其收缩路径和扩展路径结构使其能从少量图像中进行端到端训练，在相关竞赛中表现出色，成为医学成像领域的重要方法。
Residual Learning：《Deep Residual Learning for Image Recognition》提出的残差学习框架解决了深度神经网络训练困难的问题，通过学习残差函数优化网络，使训练更深的网络变得更容易，在图像识别竞赛中取得优异成绩，为视觉识别任务带来突破。
YOLO：《You Only Look Once: Unified, Real - Time Object Detection》提出的YOLO将目标检测视为回归问题，使用单个神经网络直接从完整图像预测边界框和类别概率，处理速度快，泛化能力强，在实时目标检测领域具有重要影响力。

4、大语言模型

在这里插入图片描述

2017 - 2022 年间人工智能领域最重要的研究成果，涵盖自然语言处理、计算机视觉、蛋白质结构预测等多个领域，这些成果推动了人工智能的发展和广泛应用。

参考文章：A History of AI (Part 5) 人工智能的历史（第5部分）

本文是《人工智能的历史》系列文章的第5部分，主要回顾了2017 - 2022年间人工智能领域最重要的研究成果，涵盖自然语言处理、计算机视觉、蛋白质结构预测等多个领域，这些成果推动了人工智能的发展和广泛应用。

Transformer模型（2017年）：论文《Attention is All you Need》提出Transformer模型，摒弃复杂的循环和卷积神经网络结构，仅依靠注意力机制。在机器翻译任务中，该模型翻译质量更高、训练速度更快且更易并行化，革新了自然语言处理，为后续研究奠定基础。
BERT（2018年）：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》介绍的BERT模型，通过双向训练理解文本上下文，预训练后微调可用于多种自然语言处理任务，在多个任务上取得领先成绩，开创了语言模型训练新方式。
GPT - 3（2020年）：《Language Models are Few - Shot Learners》中提出的GPT - 3模型参数达1750亿，能通过少量示例处理任务，无需针对特定任务微调，推动了大语言模型发展，但也存在一些不足。
ViT（2020年）：《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》表明Transformer模型可直接用于图像识别，ViT在大量数据预训练后，在多个图像识别基准测试中表现优异，挑战了卷积神经网络在计算机视觉领域的主导地位。
AlphaFold（2021年）：《Highly accurate protein structure prediction with AlphaFold》提出的AlphaFold模型，利用机器学习预测蛋白质3D结构，达到原子级精度，加速了生物研究和医学进步，展示了人工智能在解决科学难题上的巨大潜力。
ChatGPT（2022年）：OpenAI开发的ChatGPT能以对话方式与用户交互，可回答后续问题、承认错误等。它推动了自然语言处理发展，拓展了人工智能在多领域的应用范围，引发广泛关注和讨论。
2023年
1. GPT-4（OpenAI）
  首个支持图文联合理解的多模态大模型，参数量远超GPT-3，在医学考试中达到专家水平，推动ChatGPT Plus等商业化应用落地。其API接口被广泛集成到Duolingo、Stripe等企业服务中，引发全球对AI伦理的讨论。
2. Gemini 1.0（Google）
  谷歌首个原生多模态模型，支持文本、图像、音频端到端处理，在多模态理解任务中超越GPT-4。例如，可直接解析复杂图表并生成结构化分析报告，训练成本高达1.91亿美元。
3. DeepSeek LLM（中国DeepSeek）
  采用混合专家架构（MoE）实现低至600万美元训练成本，中文理解和代码生成能力突出。其开源版本被广泛用于金融风控和工业质检领域，打破欧美在大模型领域的垄断。
2024年
1. Claude 3（Anthropic）
  支持128K上下文窗口，数学推理（GSM8K准确率95%）和多语言覆盖（100+语言）达到新高度。在法律文书生成和医疗咨询等专业领域表现稳健，错误拒绝率较前代降低60%。
2. Llama 3（Meta）
  开源405B参数模型，MMLU基准测试准确率88.2%接近GPT-4水平。通过15万亿token多语言训练，支持代码解释和长文本摘要，成为学术研究和企业级应用的主流选择。
3. BaseFold（Basecamp Research）
  在CASP15竞赛中预测准确率较AlphaFold2提升6倍，解决复杂蛋白质-配体相互作用预测难题。其技术被用于辉瑞COVID-19药物研发，加速抗癌新药和酶工程进程。
2025年
1. DeepSeek-R1（中国DeepSeek）
  通过蒸馏技术将671B参数模型压缩至消费级GPU运行，数学推理（GSM8K准确率92%）和多轮对话连贯性超越ChatGPT。移动端应用发布一周登顶App Store，训练成本仅为GPT-4的5%。
2. 量子AI芯片（中国DeepSeek）
  "智脑X1"量子芯片实现1000P算力，较传统GPU提升百倍。支持新冠病毒变种结构解析（8小时完成）和工业机器人实时路径规划，推动AI在能源调度和智能制造落地。
3. 原生多模态大模型（中国智源研究院）
  Emu3模型实现视频、图像、文本端到端生成。例如，输入"热带雨林探险"文本提示可直接生成4K电影级视频，角色动作符合物理规律，完播率比人工内容高41%。
4. 情感智能AI伴侣
  "心镜"系统通过脑电手环实时监测情绪波动，在心理治疗中实现92%共情响应准确率，帮助失眠患者平均入睡时间缩短至12分钟，推动AI在心理健康领域的应用。

这里我提供给大家一个大语言模型排行榜网址（中文大模型）
https://www.superclueai.com/

在这里插入图片描述

更多内容，可以去这个网站看
🟩 https://medium.com/search?q=History+of+AI

在这里插入图片描述

三、AI大模型四阶技术

在这里插入图片描述

1、提示工程（Prompt Engineering）

与模型的对话艺术
在这里插入图片描述

提示工程是解锁大模型能力的“钥匙”。通过设计引导性指令（如“请以初中教师的口吻解释量子纠缠”），用户可定向激发模型的特定能力。

进阶技巧包括思维链提示、少样本学习（Few-shot Learning）等。

例如，要求模型“先列出解题步骤，再给出最终答案”，准确率可提升40%。

这一技术的本质是构建人机协作的“语义接口”，将模糊需求转化为机器可理解的逻辑流。

其实prompt，就是语言艺术，有效的进行沟通，那么我们将获得更优质的答案

更多prompt沟通技巧，需要了解可以查看这个网站

https://www.promptingguide.ai/zh

在这里插入图片描述

2、AI智能体（Agents）

自主决策的雏形
在这里插入图片描述
强烈建议大家去看看这篇文章 https://react-lm.github.io/ 以及这篇论文：https://arxiv.org/pdf/2210.03629.pdf.

智能体技术赋予大模型“行动能力”。

通过整合工具调用（如网络搜索、API连接）
记忆存储和多任务调度，AI能够自主完成复杂工作流。

例如，AutoGPT可分解用户目标为子任务，并循环迭代直至达成结果。

这相当于为模型配备“肢体”和“感官”，使其从文本生成器升级为任务执行者。

这里再推荐一个网站给于大家阅读

https://learnprompting.org/docs/agents/introduction

在这里插入图片描述

以下是当前主流的AI Agent典型开源框架及其核心特点，涵盖多代理协作、自动化任务处理、生产级应用等场景

1. MetaGPT
在这里插入图片描述

核心功能：模拟软件开发团队的多代理协作框架，支持产品经理、架构师、工程师等角色分工协作，通过共享消息池实现任务自动化流转。
亮点：
- 全流程自动化开发，例如生成需求文档、架构设计、代码编写及测试。
- 集成强化学习优化策略，支持复杂任务的分解与执行。
适用场景：自动化软件开发、项目管理。
开源地址：GitHub - MetaGPT

2. AutoGen
在这里插入图片描述

核心功能：微软推出的多代理协作框架，支持任务调度、决策优化及跨平台集成，提供分层API和可视化开发工具（AutoGen Studio）。
亮点：
- 支持人工反馈机制，优化任务执行策略。
- 灵活适配智能客服、企业自动化等场景。
开源地址：GitHub - AutoGen

更多完整框架列表可参考Top11 AI Agent开发框架。

3、预训练技术（Pre-training）

智能基座的锻造
在这里插入图片描述

预训练是大模型的"筑基阶段"，通过千亿级token的无监督学习，模型建立起对语言、图像等模态的隐式理解。

例如，BERT通过掩码语言建模捕捉双向语义关系，ViT将图像分割为序列块实现全局建模，CLIP打通图文语义空间支持跨模态检索。

相关论文https://arxiv.org/pdf/1810.04805

3.1 为什么需要预训练

通用表征学习：构建跨任务的通用知识体系（如GPT-3的Few-Shot能力）
数据高效利用：ImageNet预训练模型迁移至医疗影像分类时，数据需求减少80%
计算范式统一：Transformer架构实现NLP/CV/语音的统一建模（如Vision Transformer）
多模态融合基础：CLIP图文对比学习为Stable Diffusion提供跨模态生成能力
技术生态支撑：HuggingFace模型库收录超50万预训练模型，加速行业应用

3.2 预训练技术全景图

在这里插入图片描述

领域	方法/模型	核心思想	论文链接
自然语言处理	BERT	掩码语言建模+下一句预测，双向语义建模	BERT: Pre-training of Bidirectional Transformers
	GPT-3	自回归生成范式，1750亿参数支持Few-Shot学习	Language Models are Few-Shot Learners
	T5	文本到文本统一框架，通过前缀指令控制任务类型	Exploring the Limits of Transfer Learning
计算机视觉	ResNet	残差连接解决梯度消失，ImageNet Top-5准确率96.4%	Deep Residual Learning
	MAE	掩码图像重建，ViT架构实现全局特征提取	Masked Autoencoders Are Scalable Vision Learners
	SimCLR	对比学习增强图像表征，ImageNet线性评估准确率76.5%	A Simple Framework for Contrastive Learning
多模态模型	CLIP	图文对比学习对齐语义空间，支持零样本跨模态检索	Learning Transferable Visual Models
	ViLBERT	跨模态注意力机制融合图像区域与文本特征	ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations
语音处理	Wav2Vec 2.0	自监督语音表征学习，LibriSpeech词错率1.4%	wav2vec 2.0: Self-Supervised Learning of Speech Representations
	Whisper	多语言多任务预训练，支持语音识别与翻译	Robust Speech Recognition via Large-Scale Weak Supervision
新兴技术	LLaMA	开源大模型系列，7B参数模型在消费级GPU可运行	LLaMA: Open and Efficient Foundation Language Models
	Mamba	状态空间模型(SSM)突破Transformer长度限制，处理速度提升5倍	Mamba: Linear-Time Sequence Modeling

3.3 主流技术详解

3.3.1 自然语言处理

BERT：通过随机掩码15%的输入token并预测，结合下一句预测任务（NSP）捕捉段落级关系。在GLUE基准测试中平均得分92.2%，但无法直接处理生成任务。
GPT-3：采用纯解码器架构，通过自回归生成实现零样本学习。在TriviaQA问答任务中准确率71.2%，但存在事实性错误（约15%生成内容需人工修正）。
T5：将分类、翻译等任务统一为文本生成格式。例如输入"translate English to German: Hello world"，输出"Hallo Welt"。

3.3.2 计算机视觉

ResNet-50：包含49个卷积层和1个全连接层，通过残差连接解决深层网络梯度消失问题。ImageTop-1准确率76.15%，参数量25.6M。
MAE：随机掩码75%的图像块，通过ViT重建原始像素。在ImageNet-1K上线性评估准确率84.8%，较监督学习提升8%。
DINOv2：自监督学习框架，通过图像增强生成正负样本对。在ADE20K语义分割任务中mIoU达48.7%，接近监督模型水平。

3.3.3 多模态融合

CLIP：使用4亿图文对进行对比学习，图文嵌入空间余弦相似度超0.9。零样本ImageNet分类准确率76.2%，但存在性别偏见（女性图像被错误关联家务类标签概率高23%）。
Flamingo：集成视觉编码器与语言模型，支持少样本视觉问答。在VQAv2测试集上准确率82.7%，比GPT-4高5.3%。

3.3.4 新兴架构

Mamba：基于状态空间模型(SSM)实现线性复杂度，处理32k长度文本时显存占用仅为Transformer的1/5。在PG19长文本任务中困惑度降低18%。
RetNet：通过保留机制实现并行训练与循环推理，训练速度提升3倍。在Wikitext-103基准测试中困惑度15.3，与Transformer持平。

3.4 预训练网络架构

在这里插入图片描述

3.5 总结与趋势

架构统一化：Transformer成为NLP/CV/语音的通用架构（如ViT、Whisper）
训练高效化：FlashAttention优化显存利用，训练速度提升2.8倍
多模态深度融合：图文音联合预训练模型（如GPT-4o）支持跨模态推理
轻量化部署：模型压缩技术（如LLaMA-7B）实现在RTX 3060显卡运行
伦理与安全：宪法AI（Constitutional AI）在预训练阶段注入伦理约束
通过预训练技术构建的基础模型，已成为AI领域的"电力设施"。开发者可通过微调、提示工程等手段，快速构建垂直领域应用，推动技术普惠化。

4、大模型微调（Fine-tuning）

领域知识的注入术

在这里插入图片描述

微调技术通过领域数据对预训练模型进行二次训练，使其适配特定场景。

例如，使用法律文书微调的模型，在合同审查任务中表现优于通用模型。

4.1 为什么需要大模型微调

预训练成本高（LLaMA-65B 需要780GB 显存）
提示工程有天花板（token 上限与推理成本）
基础模型缺少特定领域数据
数据安全和隐私
个性化服务需要私有化的微调大模型

4.2 大模型微调技术

以下是微调主流方法介绍，整合了现有信息与搜索结果中的补充内容：

大模型微调方法分类清单表

分类	方法	核心思想	论文链接
全量微调 (FFT)	Full Fine-Tune	更新整个模型的参数，适用于数据充足且计算资源丰富的场景	-
高效微调 (PEFT)		仅更新少量参数或添加轻量化模块，显著降低训练成本
围绕 Token 优化	Prompt Tuning	在输入嵌入层添加可学习的连续提示向量（Soft Prompts）	The Power of Scale for Parameter-Efficient Prompt Tuning
	Prefix Tuning	在每层输入前添加可训练的前缀向量，动态引导模型输出	Prefix-Tuning: Optimizing Continuous Prompts for Generation
	P-Tuning	通过可学习的虚拟提示（Virtual Tokens）和 MLP/LSTM 优化提示嵌入	GPT Understands, Too
低秩适应技术	LoRA	通过低秩分解模拟参数增量，仅训练旁路小矩阵	LoRA: Low-Rank Adaptation of Large Language Models
	QLoRA	结合4-bit量化与LoRA，大幅降低显存占用	QLORA: Efficient Finetuning of Quantized LLMs
	AdaLoRA	动态分配低秩矩阵的秩，优先优化关键模块	Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning
	DoRA	分解权重更新为方向与幅度分量，增强正交约束	Directional Orthogonalized Rank Adaptation
统一框架与新思路	IA3	通过缩放激活值调整模型输出，参数量极低（0.01%）	Few-Shot Parameter-Efficient Fine-Tuning
	UniPELT	动态融合多种PEFT方法（Adapter/Prefix Tuning/LoRA），提升多任务适应性	UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning
	TT-LoRA MoE	结合LoRA与稀疏混合专家（MoE），实现多任务动态路由	TT-LoRA MoE: Unifying PEFT and Sparse MoE
强化学习对齐	RLHF	基于人类偏好反馈优化模型输出	Training Language Models to Follow Instructions
	RLAIF	利用AI生成的反馈替代人类标注，降低对齐成本	RLAIF: Scaling Reinforcement Learning from AI Feedback

4.3 主流分类技术详解

4.3.1 围绕 Token 优化的方法

Prompt Tuning：通过可学习的连续提示向量调整模型行为，无需修改模型结构，仅需存储少量任务特定参数。
Prefix Tuning：在Transformer每层输入前添加可训练前缀，动态引导生成过程，适用于序列生成任务。
P-Tuning：将离散提示转换为可优化的嵌入，结合轻量级模型（如LSTM）生成更灵活的提示。
优势：推理零延迟，适合多任务切换；局限：提示长度和初始化策略影响性能。

4.3.2 低秩适应技术

LoRA：冻结原模型参数，通过低秩矩阵旁路更新参数，参数量仅为原模型的0.1%~1%，支持多任务部署。
QLoRA：在LoRA基础上引入4-bit量化（NF4格式）和双量化技术，使175B模型训练显存需求降低50%。
AdaLoRA：基于Hessian矩阵动态分配秩，关键模块（如注意力层）分配更高秩以提升微调效果。
应用场景：移动端部署（QLoRA）、多任务学习（AdaLoRA）、高精度生成（DoRA）。

4.3.3 统一框架与新思路

IA3：通过缩放激活值调整模型输出，参数量极低（0.01%），适用于少样本场景。
UniPELT：动态融合多种PEFT方法（如Adapter+LoRA），提升多任务泛化能力，参数量减少30%。
TT-LoRA MoE：将LoRA与稀疏MoE结合，每个任务独立训练轻量专家，推理时动态路由，显存效率提升40%。

4.3.4 强化学习对齐方法

RLHF：通过人类标注的偏好数据训练奖励模型，优化生成内容与人类价值观对齐，但依赖高质量标注。
RLAIF：利用AI生成反馈替代人类标注，实验表明其效果与RLHF相当（偏好率71% vs 73%），显著降低标注成本。

4.4 总结与趋势

参数效率：LoRA及其变种（QLoRA/AdaLoRA）成为主流，平衡性能与显存需求。
多任务扩展：结合MoE的统一框架（如TT-LoRA MoE）推动多任务动态适配。
对齐技术：RLAIF逐步替代RLHF，解决标注瓶颈并提升扩展性。
量化与硬件适配：4-bit量化技术（如QLoRA）推动大模型在边缘设备部署。

更多技术细节可参考上述论文及开源库（如HuggingFace PEFT）。

四、大模型概念与训练过程

1、什么是大模型

在这里插入图片描述

1.1 大模型：像是一个“超级大脑”

想象你认识一个记忆力超群、知识渊博的图书管理员，他读完了全世界的书籍、论文、网页，甚至聊天记录。
这个“图书管理员”就是大模型（比如 ChatGPT）。其特点如下：

知识量爆炸：记住的内容量，相当于把整个互联网装进脑子里。
擅长联想：提问后会从海量知识中找到关联信息（如问“苹果”，立刻想到水果、手机公司、牛顿的故事）。
会“思考”：能根据问题推测答案，甚至编故事、写诗，而非单纯复读已知内容。

举例：“为什么夏天比冬天热？”
- 传统搜索引擎：直接回复“因为地球公转导致阳光直射角度变化”。
- 大模型：可能会说：“夏天太阳更‘正对着’我们，阳光更集中，就像用手电筒直照地板比斜着照更亮更热。
另外，夏天白天更长，积攒的热量更多哦～” ，用熟悉比喻解释原理，展现“理解”能力。

1.2 Y=WX：像“调配奶茶的配方”

假设经营一家奶茶店，用数学公式决定奶茶味道：

X（输入）：原料分量，如糖20g、茶100ml、奶50ml。
W（权重）：对每种原料的重视程度。例如“甜度权重”高，糖多一点就更甜。
Y（输出）：最终奶茶的味道评分（如甜度8分、茶香6分）。

公式意义：
在这里插入图片描述

（这里假设糖对甜度影响最大，奶次之，茶不影响甜度）

实际应用：
如果顾客反馈“不够甜”，就调高“糖”的权重（比如从 0.5 改成 0.7），下一杯就更甜。这就是机器学习：通过调整权重（W），让输出（Y）更符合目标（比如顾客口味）。

1.3 大模型和 Y=WX 的关系

可以把大模型想象成一家“巨型奶茶工厂”：

原料（X）：输入的问题，比如“北京有什么好玩的地方？”
配方（W）：大模型内部的数万亿个权重，决定如何组合文字（类似调奶茶的甜度、茶香）。这些权重是大模型通过“读书”（训练）学到的规则，比如“北京”关联“故宫”、“长城”。
成品（Y）：生成的回答，比如“推荐故宫、长城，春天可以去颐和园划船～”

关键区别：

巨型工厂（大模型）：有10万种原料（文字、图片等），配方复杂到能模拟人类对话，甚至写代码、画图。
普通奶茶店（小模型）：只有10种原料，配方简单，只能做基础奶茶。

1.4 现实中的类比

学英语
大脑（大模型）通过大量听读（训练），建立单词间的联系（权重W）。
当有人说“How are you?”（输入X），自动回答“I’m fine”（输出Y），无需查语法书。
网购推荐
平台用大模型分析购买过的商品（X），通过权重（W）计算可能喜欢的物品（Y）。
比如权重发现常买咖啡，就推荐咖啡机（类似调高“咖啡”相关权重）。

1.4 总结

大模型 = 超级大脑（海量知识 + 联想推理）
Y=WX = 调配“知识奶茶”的基础规则
核心逻辑：大模型用数万亿个Y=WX的“小配方”，组合成复杂的“思维链”。就像用乐高积木搭出宇宙飞船，每一块积木（Y=WX）看似简单，组合起来却能实现神奇功能！

2、大模型训练过程详解

在这里插入图片描述

参考文章https://www.zco.com/blog/training-large-language-models/

2.1 第一步：准备学习资料（数据）

大模型的学习材料：互联网上的所有文本（书籍、网页、对话等），比如包含无数句子的“北京是中国的首都，有故宫、长城等景点”。相当于学霸有一屋子课本，每天疯狂刷题。

2.2 第二步：设定学习目标（训练任务）

大模型的核心训练任务是“完形填空”：
例子：给模型一句话：“北京有很多著名景点，比如和长城。”
目标：让模型预测空白处最可能的词（比如“故宫”）。相当于老师出填空题，学霸通过上下文推测答案。

2.3 第三步：试错与调整权重（参数更新）

初次尝试：模型可能瞎猜一个词（比如“火锅”），然后对比正确答案“故宫”，发现错了。
数学惩罚：计算“火锅”和“故宫”的差异（损失函数），用反向传播算法告诉模型：“‘火锅’在这个上下文里权重应该降低，‘故宫’的权重应该提高”。
重复亿万次：模型在数万亿句子上重复这个过程，最终学会“北京→景点→故宫/长城”的强关联。相当于学霸每做错一题，就把相关知识点划重点（调权重），直到看到“北京”就条件反射想到“故宫”。

2.4 通过FQA来理解这个过程

🔴 具体到“北京→故宫”如何关联？

词向量（Word Embedding）：
例子：
“北京” = [0.2, -0.5, 1.1, …]
“故宫” = [0.3, -0.6, 0.9, …]
（这些数字编码了语义，比如首都、景点、历史等属性）
每个词（如“北京”“故宫”）被转换成一组数字（比如300维向量），类似用一串密码表示词义。
权重矩阵（W）的作用：通过矩阵乘法（Y=WX），模型将“北京”的向量变换后，输出一个概率分布，指向最相关的词（如“故宫”概率最高）。
训练后的效果：当模型看到“北京”时，它的权重矩阵会自动激活“景点”“历史”等属性通道，抑制“美食”“动物”等无关通道，最终输出“故宫”。

🔴 用现实例子理解训练过程
假设教小孩认动物：

指着图片说：“这是猫，有尖耳朵、长尾巴。”（输入数据）
小孩第一次看到狗，误认为是猫。（预测错误）
纠正他：“这是狗，耳朵更圆。”（计算误差）
小孩调整脑中的“猫狗特征权重”，下次更关注耳朵形状。（参数更新）

大模型的训练就是把这个过程自动化、规模化：

数据量：小孩学100张图 → 模型学数万亿句子
调整速度：小孩一天学10个词 → 模型一秒调整数百万次权重

🔴 为什么权重能记住复杂关系？

分层学习：
- 第一层发现“北”和“京”常一起出现 → 学会“北京”是一个词。
- 第五十层发现“北京”常和“首都”“景点”关联 → 建立城市属性。
- 第一百层学会“推荐北京景点”应优先列出故宫、长城。
  模型像有多层流水线的工厂，底层学字母组合，中层学语法，高层学语义逻辑。
注意力机制：类似人类阅读时“划重点”，模型通过自注意力机制，让“北京”和“故宫”在特定上下文中权重更高。

# 伪代码：模型内部对句子的“关注度”计算
当输入是“北京有什么景点？”时：
给“北京” + “景点”分配高注意力权重，
抑制“北京” + “烤鸭”的权重。

🔴 模型如何学习“北京→故宫”？

见得多：在训练数据中，“北京”和“故宫”共同出现的频率极高。
惩罚与奖励：
- 当模型猜错时，降低错误词的权重（如“火锅”）。
- 猜对时，强化正确路径的权重（如“故宫”）。
属性编码：最终，“北京”的向量表示中包含了“需要关联景点”的属性，而权重矩阵像条件反射网络，自动触发相关词。这就好比：如果每天听家人说“下雨要打伞”，重复100次后，一听到“下雨”就自动想到“伞”——只不过大模型用数学放大了亿万倍这个过程。

3、Y=WX相关学术资源

在这里插入图片描述

1. 经典论文

《Deep Learning》（Ian Goodfellow等著）
- 章节：第6章"深度前馈网络"
- 内容：详细讲解线性回归、权重初始化、激活函数等基础理论
- 链接：深度学习 - 图书百科
《A Neural Probabilistic Language Model》（Bengio等著）
- 贡献：首次提出基于神经网络的语言模型，核心公式为Y=WX+b
- 链接：论文链接

2. 权威教程

吴恩达机器学习课程
- 主题：线性回归与梯度下降
- 内容：通过房价预测案例讲解Y=WX的实现与优化
- 链接：Coursera课程
Transformer前馈神经网络解析
- 主题：Y=WX在注意力机制中的应用
- 内容：结合Transformer模型说明权重矩阵的维度变换
- 链接：技术文章

3. 进阶研究

《Large Scale Distributed Deep Networks》（Dean等著）
- 贡献：提出分布式训练框架，解决大模型权重更新的效率问题
- 链接：论文链接
《Loss of Plasticity in Deep Continual Learning》（Sutton等著）
- 主题：持续学习中的权重优化
- 内容：提出持续反向传播算法，解决模型可塑性下降问题
- 链接：Nature论文