01 | 大模型微调 | 从0学习到实战微调 | AI发展与模型技术介绍

news2025/5/11 10:09:20

一、导读

作为非AI专业技术开发者(我是小小爬虫开发工程师😋)

本系列文章将围绕《大模型微调》进行学习(也是我个人学习的笔记,所以会持续更新),最后以上手实操模型微调的目的。

(本文如若有错误的地方,欢迎批评指正)

在这里插入图片描述

💪 为什么要学习AI呢?

  • 作为一名爬虫开发工程师,我深知技术领域的不断变革与发展
  • 如今,AI 已然成为时代浪潮的核心驱动力,就如同 Windows 操作能力是从业者的基础技能,
  • 我坚信未来 AI 开发应用必将成为程序员不可或缺的能力标签。

你可以阅读我下列文章

✅ 关于langchain的系列文章(相信我把Langchain全部学一遍,你能深入理解AI的开发)

01|LangChain | 从入门到实战-介绍
02|LangChain | 从入门到实战 -六大组件之Models IO
03|LangChain | 从入门到实战 -六大组件之Retrival
04|LangChain | 从入门到实战 -六大组件之Chain
05|LangChain | 从入门到实战 -六大组件之Memory
06|LangChain | 从入门到实战 -六大组件之Agent

✅关于Langchain的实战案例(自认为本地问答机器人的案例写的很好,很好理解ReAct)
Langchain-实战篇-搭建本地问答机器人-01
都2024了,还在纠结图片识别?fastapi+streamlit+langchain给你答案!

✅关于Agent智能体开发案例(MCP协议)
在dify构建mcp,结合fastapi接口,以实际业务场景理解MCP

✅ 推荐阅读一下transformer 文章,以便能更好的理解大模型

Transformer模型详解(图解最完整版)

Attention Is All You Need (Transformer) 论文精读

✅ 除了在 CSDN 分享这些技术内容,我还将在微信公众号持续输出优质文章,内容涵盖以下板块:​
(当然我也希望能够跟你们学习探讨😀)

关注😄「稳稳C9」😄公众号

  • 爬虫逆向:分享爬虫开发中的逆向技术与技巧,探索数据获取的更多可能。​
  • AI 前沿内容:紧跟 AI 发展潮流,解读大模型、算法等前沿技术动态。​
  • 骑行分享:工作之余,用骑行丈量世界,分享旅途中的所见所感。
  • 搜索「稳稳C9」公众号

在这里插入图片描述

二、AI发展四轮浪潮

在这里插入图片描述

1、弱人工智能

1950 - 2000 年间,众多关键研究成果不断涌现,从理论基础的建立到各种算法和模型的提出,为人工智能后续发展构筑了坚实的基石。

参考文章:A History of AI (Part 1)人工智能简史(第1部分)

  1. 感知机(1958年):Frank Rosenblatt的论文为复杂神经网络和机器学习算法奠定基础。感知机作为人工神经网络基本单元,可根据输入数据调整权重学习和决策。
  2. 反向传播算法(1986年):David E. Rumelhart等人提出的反向传播算法,能训练多层网络,使内部隐藏单元提取任务特征,与早期方法区分开来,推动深度学习发展。
  3. 决策树(1986年):J. R. Quinlan的论文介绍ID3算法,是构建决策树的基础方法,后续研究围绕处理噪声和不完整数据改进算法。决策树用于分类和回归,ID3算法基于信息增益递归划分数据。
  4. 隐马尔可夫模型(1989年):L.R. Rabiner的论文全面介绍隐马尔可夫模型(HMMs)及其在语音识别中的应用。HMMs基于马尔可夫过程,包含不可观测隐藏状态,解决评估、解码和学习三个基本问题。
  5. 多层前馈网络(1989年):Kurt Hornik等人证明多层前馈网络是通用近似器,理论上能以任意精度逼近复杂函数,为神经网络广泛应用提供理论依据。
  6. 支持向量机(1992年):Bernhard E. Boser等人提出支持向量机(SVMs),通过最大化类间间隔和自动调整模型复杂度,在分类任务中表现出色,如光学字符识别。
  7. 装袋法(1996年):Leo Breiman提出装袋法(Bagging),属于集成学习方法,通过自助采样生成多个模型并聚合结果,降低预测方差,提高准确性。
  8. 卷积神经网络(1998年):Yann LeCun等人的研究展示卷积神经网络(CNNs)在识别二维形状(如手写字符)上的优势,并介绍图变换网络(GTNs)用于全局训练多模块系统,推动文档识别等应用发展。

2、机器学习(统计机器学习)

在这里插入图片描述

参考文章:A History of AI (Part 2) 人工智能的历史(第2部分)

2000 - 2010 年间人工智能领域的重要研究成果,展示了该时期人工智能技术的多元发展。

  1. 随机森林(2001年):Leo Breiman提出随机森林,这是一种集成学习方法,结合多个基于随机特征子集训练的决策树,用于分类和回归。相比Adaboost,它对噪声更具鲁棒性,不易过拟合,还能通过内部估计监控误差等指标,衡量变量重要性。
  2. 进化算法(2002年):K. Deb等人提出NSGA - II算法,改进了多目标进化算法。该算法降低了计算复杂度,引入精英策略保留最优解,避免指定共享参数,在收敛性和求解多样性上表现更优,推动了多目标优化领域发展。
  3. 潜在狄利克雷分配(2003年):David M. Blei等人提出LDA,这是一种用于离散数据(如文本)的生成式概率模型。它将文档视为主题的混合,主题视为单词的混合,通过变分方法和EM算法进行参数估计,为文本主题建模提供了有效框架,促进了文档分类等应用发展。
  4. 降维(2006年):Geoffrey E. Hinton和R. R. Salakhutdinov发现,正确初始化的深度自编码器网络能学习到比主成分分析(PCA)更优的低维数据表示。自编码器可将高维数据压缩为低维编码并重建,该研究为降维提供了新的有效方法。
  5. 高维数据可视化(2008年):Laurens van der Maaten和Geoffrey Hinton提出t - SNE技术,用于高维数据可视化。它改进了随机邻居嵌入(SNE)方法,更易优化,能减少数据点在图中心聚集的问题,在多尺度揭示数据结构方面表现出色,成为高维数据可视化的标准技术。
  6. ImageNet(2009年):Jia Deng等人构建了大规模图像数据库ImageNet,基于WordNet结构组织图像,规模大、多样性丰富且标注准确。它为图像识别和分类模型的训练提供了大量数据,推动了相关领域的发展。

3、深度学习

在这里插入图片描述

参考文章:A History of AI (Part 3) 人工智能的历史(第3部分)

2010 - 2014 年人工智能领域最重要的研究论文,展示了这一时期人工智能在多个关键方向的重大进展。

  1. 图像识别突破:AlexNet利用深度卷积神经网络对130万张高分辨率图像进行分类,凭借非饱和神经元、GPU加速和新正则化方法,大幅降低错误率,推动计算机视觉发展。
  2. 自然语言处理进展:提出新模型架构生成词向量,在词相似性任务中表现出色,计算成本低,成为现代自然语言处理应用的基础;基于LSTM的序列到序列学习方法,在机器翻译任务中超越传统方法,为神经机器翻译等应用奠定基础;引入软对齐机制,改进了神经网络机器翻译,解决了固定长度向量的瓶颈问题,引入注意力机制影响众多AI领域。
  3. 生成模型创新:变分自编码器(VAE)提出随机变分推理和学习算法,解决复杂概率模型的推理和学习问题,推动生成模型发展;生成对抗网络(GANs)通过生成模型与判别模型对抗训练,能生成高度逼真的合成数据,在图像合成等领域应用广泛。
  4. 优化与正则化技术提升:Dropout通过随机丢弃神经元防止神经网络过拟合,在多领域提升网络性能;Adam算法基于自适应估计低阶矩进行随机优化,计算高效、内存需求小,适用于多种场景,显著提高机器学习模型训练效率。

2015 - 2016 年人工智能领域的重要研究论文,展现了该时期 AI 在深度学习、图像识别、强化学习和目标检测等多方面的关键进展。
参考文章:A History of AI (Part 4) 人工智能的历史(第4部分)

  1. 批量标准化(Batch Normalization):论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》提出此技术,通过归一化层输入减少内部协变量移位,加速深度学习模型训练,可使用更高学习率,部分情况还能省去Dropout,提升了模型精度,推动了AI应用发展。
  2. Inception:《Going Deeper With Convolutions》介绍了Inception深度学习模型,其创新设计提高了网络计算资源利用率,在不增加计算量的同时加深加宽网络。GoogLeNet作为该架构的具体实现,在图像识别竞赛中表现优异,为神经网络设计树立了新标杆。
  3. Deep Q:《Human - level control through deep reinforcement learning》创建了深度Q网络(DQN),能直接从高维感官输入学习成功策略。在Atari 2600游戏测试中,其性能超越以往算法,达到专业人类玩家水平,开创了深度学习与强化学习结合的先河。
  4. Region - based Convolutional Neural Network:《Faster R - CNN: Towards Real - Time Object Detection with Region Proposal Networks》提出的Faster R-CNN,将区域提议和目标检测集成到一个高效系统中,通过共享卷积层提高了目标检测速度和精度,推动了实时目标检测应用的发展。
  5. U - Net:《U - Net: Convolutional Networks for Biomedical Image Segmentation》介绍的U - Net用于生物医学图像分割,利用数据增强高效使用有限标注样本,其收缩路径和扩展路径结构使其能从少量图像中进行端到端训练,在相关竞赛中表现出色,成为医学成像领域的重要方法。
  6. Residual Learning:《Deep Residual Learning for Image Recognition》提出的残差学习框架解决了深度神经网络训练困难的问题,通过学习残差函数优化网络,使训练更深的网络变得更容易,在图像识别竞赛中取得优异成绩,为视觉识别任务带来突破。
  7. YOLO:《You Only Look Once: Unified, Real - Time Object Detection》提出的YOLO将目标检测视为回归问题,使用单个神经网络直接从完整图像预测边界框和类别概率,处理速度快,泛化能力强,在实时目标检测领域具有重要影响力。

4、大语言模型

在这里插入图片描述

2017 - 2022 年间人工智能领域最重要的研究成果,涵盖自然语言处理、计算机视觉、蛋白质结构预测等多个领域,这些成果推动了人工智能的发展和广泛应用。

参考文章:A History of AI (Part 5) 人工智能的历史(第5部分)

本文是《人工智能的历史》系列文章的第5部分,主要回顾了2017 - 2022年间人工智能领域最重要的研究成果,涵盖自然语言处理、计算机视觉、蛋白质结构预测等多个领域,这些成果推动了人工智能的发展和广泛应用。

  1. Transformer模型(2017年):论文《Attention is All you Need》提出Transformer模型,摒弃复杂的循环和卷积神经网络结构,仅依靠注意力机制。在机器翻译任务中,该模型翻译质量更高、训练速度更快且更易并行化,革新了自然语言处理,为后续研究奠定基础。

  2. BERT(2018年):《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》介绍的BERT模型,通过双向训练理解文本上下文,预训练后微调可用于多种自然语言处理任务,在多个任务上取得领先成绩,开创了语言模型训练新方式。

  3. GPT - 3(2020年):《Language Models are Few - Shot Learners》中提出的GPT - 3模型参数达1750亿,能通过少量示例处理任务,无需针对特定任务微调,推动了大语言模型发展,但也存在一些不足。

  4. ViT(2020年):《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》表明Transformer模型可直接用于图像识别,ViT在大量数据预训练后,在多个图像识别基准测试中表现优异,挑战了卷积神经网络在计算机视觉领域的主导地位。

  5. AlphaFold(2021年):《Highly accurate protein structure prediction with AlphaFold》提出的AlphaFold模型,利用机器学习预测蛋白质3D结构,达到原子级精度,加速了生物研究和医学进步,展示了人工智能在解决科学难题上的巨大潜力。

  6. ChatGPT(2022年):OpenAI开发的ChatGPT能以对话方式与用户交互,可回答后续问题、承认错误等。它推动了自然语言处理发展,拓展了人工智能在多领域的应用范围,引发广泛关注和讨论。

  7. 2023年

    1. GPT-4(OpenAI)
      首个支持图文联合理解的多模态大模型,参数量远超GPT-3,在医学考试中达到专家水平,推动ChatGPT Plus等商业化应用落地。其API接口被广泛集成到Duolingo、Stripe等企业服务中,引发全球对AI伦理的讨论。

    2. Gemini 1.0(Google)
      谷歌首个原生多模态模型,支持文本、图像、音频端到端处理,在多模态理解任务中超越GPT-4。例如,可直接解析复杂图表并生成结构化分析报告,训练成本高达1.91亿美元。

    3. DeepSeek LLM(中国DeepSeek)
      采用混合专家架构(MoE)实现低至600万美元训练成本,中文理解和代码生成能力突出。其开源版本被广泛用于金融风控和工业质检领域,打破欧美在大模型领域的垄断。

  8. 2024年

    1. Claude 3(Anthropic)
      支持128K上下文窗口,数学推理(GSM8K准确率95%)和多语言覆盖(100+语言)达到新高度。在法律文书生成和医疗咨询等专业领域表现稳健,错误拒绝率较前代降低60%。

    2. Llama 3(Meta)
      开源405B参数模型,MMLU基准测试准确率88.2%接近GPT-4水平。通过15万亿token多语言训练,支持代码解释和长文本摘要,成为学术研究和企业级应用的主流选择。

    3. BaseFold(Basecamp Research)
      在CASP15竞赛中预测准确率较AlphaFold2提升6倍,解决复杂蛋白质-配体相互作用预测难题。其技术被用于辉瑞COVID-19药物研发,加速抗癌新药和酶工程进程。

  9. 2025年

    1. DeepSeek-R1(中国DeepSeek)
      通过蒸馏技术将671B参数模型压缩至消费级GPU运行,数学推理(GSM8K准确率92%)和多轮对话连贯性超越ChatGPT。移动端应用发布一周登顶App Store,训练成本仅为GPT-4的5%。

    2. 量子AI芯片(中国DeepSeek)
      "智脑X1"量子芯片实现1000P算力,较传统GPU提升百倍。支持新冠病毒变种结构解析(8小时完成)和工业机器人实时路径规划,推动AI在能源调度和智能制造落地。

    3. 原生多模态大模型(中国智源研究院)
      Emu3模型实现视频、图像、文本端到端生成。例如,输入"热带雨林探险"文本提示可直接生成4K电影级视频,角色动作符合物理规律,完播率比人工内容高41%。

    4. 情感智能AI伴侣
      "心镜"系统通过脑电手环实时监测情绪波动,在心理治疗中实现92%共情响应准确率,帮助失眠患者平均入睡时间缩短至12分钟,推动AI在心理健康领域的应用。

这里我提供给大家一个大语言模型排行榜网址(中文大模型)
https://www.superclueai.com/

在这里插入图片描述

更多内容,可以去这个网站看
🟩 https://medium.com/search?q=History+of+AI

在这里插入图片描述

三、AI大模型四阶技术

在这里插入图片描述

1、提示工程(Prompt Engineering)

与模型的对话艺术
在这里插入图片描述

提示工程是解锁大模型能力的“钥匙”。通过设计引导性指令(如“请以初中教师的口吻解释量子纠缠”),用户可定向激发模型的特定能力。

进阶技巧包括思维链提示、少样本学习(Few-shot Learning)等。

例如,要求模型“先列出解题步骤,再给出最终答案”,准确率可提升40%。

这一技术的本质是构建人机协作的“语义接口”,将模糊需求转化为机器可理解的逻辑流。

其实prompt,就是语言艺术,有效的进行沟通,那么我们将获得更优质的答案

更多prompt沟通技巧,需要了解可以查看这个网站

https://www.promptingguide.ai/zh

在这里插入图片描述

2、AI智能体(Agents)

自主决策的雏形
在这里插入图片描述
强烈建议大家去看看这篇文章 https://react-lm.github.io/ 以及这篇论文:https://arxiv.org/pdf/2210.03629.pdf.

智能体技术赋予大模型“行动能力”。

  • 通过整合工具调用(如网络搜索、API连接)
  • 记忆存储和多任务调度,AI能够自主完成复杂工作流。

例如,AutoGPT可分解用户目标为子任务,并循环迭代直至达成结果。

这相当于为模型配备“肢体”和“感官”,使其从文本生成器升级为任务执行者。

这里再推荐一个网站给于大家阅读

https://learnprompting.org/docs/agents/introduction

在这里插入图片描述

以下是当前主流的AI Agent典型开源框架及其核心特点,涵盖多代理协作、自动化任务处理、生产级应用等场景


1. MetaGPT
在这里插入图片描述

  • 核心功能:模拟软件开发团队的多代理协作框架,支持产品经理、架构师、工程师等角色分工协作,通过共享消息池实现任务自动化流转。
  • 亮点
    • 全流程自动化开发,例如生成需求文档、架构设计、代码编写及测试。
    • 集成强化学习优化策略,支持复杂任务的分解与执行。
  • 适用场景:自动化软件开发、项目管理。
  • 开源地址:GitHub - MetaGPT

2. AutoGen
在这里插入图片描述

  • 核心功能:微软推出的多代理协作框架,支持任务调度、决策优化及跨平台集成,提供分层API和可视化开发工具(AutoGen Studio)。
  • 亮点
    • 支持人工反馈机制,优化任务执行策略。
    • 灵活适配智能客服、企业自动化等场景。
  • 开源地址:GitHub - AutoGen

更多完整框架列表可参考Top11 AI Agent开发框架。

3、预训练技术(Pre-training)

智能基座的锻造
在这里插入图片描述

预训练是大模型的"筑基阶段",通过千亿级token的无监督学习,模型建立起对语言、图像等模态的隐式理解。

例如,BERT通过掩码语言建模捕捉双向语义关系,ViT将图像分割为序列块实现全局建模,CLIP打通图文语义空间支持跨模态检索。

相关论文https://arxiv.org/pdf/1810.04805

3.1 为什么需要预训练

  1. 通用表征学习:构建跨任务的通用知识体系(如GPT-3的Few-Shot能力)
  2. 数据高效利用:ImageNet预训练模型迁移至医疗影像分类时,数据需求减少80%
  3. 计算范式统一:Transformer架构实现NLP/CV/语音的统一建模(如Vision Transformer)
  4. 多模态融合基础:CLIP图文对比学习为Stable Diffusion提供跨模态生成能力
  5. 技术生态支撑:HuggingFace模型库收录超50万预训练模型,加速行业应用

3.2 预训练技术全景图

在这里插入图片描述

领域方法/模型核心思想论文链接
自然语言处理BERT掩码语言建模+下一句预测,双向语义建模BERT: Pre-training of Bidirectional Transformers
GPT-3自回归生成范式,1750亿参数支持Few-Shot学习Language Models are Few-Shot Learners
T5文本到文本统一框架,通过前缀指令控制任务类型Exploring the Limits of Transfer Learning
计算机视觉ResNet残差连接解决梯度消失,ImageNet Top-5准确率96.4%Deep Residual Learning
MAE掩码图像重建,ViT架构实现全局特征提取Masked Autoencoders Are Scalable Vision Learners
SimCLR对比学习增强图像表征,ImageNet线性评估准确率76.5%A Simple Framework for Contrastive Learning
多模态模型CLIP图文对比学习对齐语义空间,支持零样本跨模态检索Learning Transferable Visual Models
ViLBERT跨模态注意力机制融合图像区域与文本特征ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations
语音处理Wav2Vec 2.0自监督语音表征学习,LibriSpeech词错率1.4%wav2vec 2.0: Self-Supervised Learning of Speech Representations
Whisper多语言多任务预训练,支持语音识别与翻译Robust Speech Recognition via Large-Scale Weak Supervision
新兴技术LLaMA开源大模型系列,7B参数模型在消费级GPU可运行LLaMA: Open and Efficient Foundation Language Models
Mamba状态空间模型(SSM)突破Transformer长度限制,处理速度提升5倍Mamba: Linear-Time Sequence Modeling

3.3 主流技术详解

3.3.1 自然语言处理
  • BERT:通过随机掩码15%的输入token并预测,结合下一句预测任务(NSP)捕捉段落级关系。在GLUE基准测试中平均得分92.2%,但无法直接处理生成任务。
  • GPT-3:采用纯解码器架构,通过自回归生成实现零样本学习。在TriviaQA问答任务中准确率71.2%,但存在事实性错误(约15%生成内容需人工修正)。
  • T5:将分类、翻译等任务统一为文本生成格式。例如输入"translate English to German: Hello world",输出"Hallo Welt"。
3.3.2 计算机视觉
  • ResNet-50:包含49个卷积层和1个全连接层,通过残差连接解决深层网络梯度消失问题。ImageTop-1准确率76.15%,参数量25.6M。
  • MAE:随机掩码75%的图像块,通过ViT重建原始像素。在ImageNet-1K上线性评估准确率84.8%,较监督学习提升8%。
  • DINOv2:自监督学习框架,通过图像增强生成正负样本对。在ADE20K语义分割任务中mIoU达48.7%,接近监督模型水平。
3.3.3 多模态融合
  • CLIP:使用4亿图文对进行对比学习,图文嵌入空间余弦相似度超0.9。零样本ImageNet分类准确率76.2%,但存在性别偏见(女性图像被错误关联家务类标签概率高23%)。
  • Flamingo:集成视觉编码器与语言模型,支持少样本视觉问答。在VQAv2测试集上准确率82.7%,比GPT-4高5.3%。
3.3.4 新兴架构
  • Mamba:基于状态空间模型(SSM)实现线性复杂度,处理32k长度文本时显存占用仅为Transformer的1/5。在PG19长文本任务中困惑度降低18%。
  • RetNet:通过保留机制实现并行训练与循环推理,训练速度提升3倍。在Wikitext-103基准测试中困惑度15.3,与Transformer持平。

3.4 预训练网络架构

在这里插入图片描述

3.5 总结与趋势

  1. 架构统一化:Transformer成为NLP/CV/语音的通用架构(如ViT、Whisper)
  2. 训练高效化:FlashAttention优化显存利用,训练速度提升2.8倍
  3. 多模态深度融合:图文音联合预训练模型(如GPT-4o)支持跨模态推理
  4. 轻量化部署:模型压缩技术(如LLaMA-7B)实现在RTX 3060显卡运行
  5. 伦理与安全:宪法AI(Constitutional AI)在预训练阶段注入伦理约束
    通过预训练技术构建的基础模型,已成为AI领域的"电力设施"。开发者可通过微调、提示工程等手段,快速构建垂直领域应用,推动技术普惠化。

4、大模型微调(Fine-tuning)

领域知识的注入术

在这里插入图片描述

微调技术通过领域数据对预训练模型进行二次训练,使其适配特定场景。

例如,使用法律文书微调的模型,在合同审查任务中表现优于通用模型。

4.1 为什么需要大模型微调

  • 预训练成本高(LLaMA-65B 需要780GB 显存)
  • 提示工程有天花板(token 上限与推理成本)
  • 基础模型缺少特定领域数据
  • 数据安全和隐私
  • 个性化服务需要私有化的微调大模型

4.2 大模型微调技术

以下是微调主流方法介绍,整合了现有信息与搜索结果中的补充内容:


大模型微调方法分类清单表

分类方法核心思想论文链接
全量微调 (FFT)Full Fine-Tune更新整个模型的参数,适用于数据充足且计算资源丰富的场景-
高效微调 (PEFT)仅更新少量参数或添加轻量化模块,显著降低训练成本
围绕 Token 优化Prompt Tuning在输入嵌入层添加可学习的连续提示向量(Soft Prompts)The Power of Scale for Parameter-Efficient Prompt Tuning
Prefix Tuning在每层输入前添加可训练的前缀向量,动态引导模型输出Prefix-Tuning: Optimizing Continuous Prompts for Generation
P-Tuning通过可学习的虚拟提示(Virtual Tokens)和 MLP/LSTM 优化提示嵌入GPT Understands, Too
低秩适应技术LoRA通过低秩分解模拟参数增量,仅训练旁路小矩阵LoRA: Low-Rank Adaptation of Large Language Models
QLoRA结合4-bit量化与LoRA,大幅降低显存占用QLORA: Efficient Finetuning of Quantized LLMs
AdaLoRA动态分配低秩矩阵的秩,优先优化关键模块Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning
DoRA分解权重更新为方向与幅度分量,增强正交约束Directional Orthogonalized Rank Adaptation
统一框架与新思路IA3通过缩放激活值调整模型输出,参数量极低(0.01%)Few-Shot Parameter-Efficient Fine-Tuning
UniPELT动态融合多种PEFT方法(Adapter/Prefix Tuning/LoRA),提升多任务适应性UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning
TT-LoRA MoE结合LoRA与稀疏混合专家(MoE),实现多任务动态路由TT-LoRA MoE: Unifying PEFT and Sparse MoE
强化学习对齐RLHF基于人类偏好反馈优化模型输出Training Language Models to Follow Instructions
RLAIF利用AI生成的反馈替代人类标注,降低对齐成本RLAIF: Scaling Reinforcement Learning from AI Feedback

4.3 主流分类技术详解

4.3.1 围绕 Token 优化的方法
  • Prompt Tuning:通过可学习的连续提示向量调整模型行为,无需修改模型结构,仅需存储少量任务特定参数。
  • Prefix Tuning:在Transformer每层输入前添加可训练前缀,动态引导生成过程,适用于序列生成任务。
  • P-Tuning:将离散提示转换为可优化的嵌入,结合轻量级模型(如LSTM)生成更灵活的提示。
  • 优势:推理零延迟,适合多任务切换;局限:提示长度和初始化策略影响性能。
4.3.2 低秩适应技术
  • LoRA:冻结原模型参数,通过低秩矩阵旁路更新参数,参数量仅为原模型的0.1%~1%,支持多任务部署。
  • QLoRA:在LoRA基础上引入4-bit量化(NF4格式)和双量化技术,使175B模型训练显存需求降低50%。
  • AdaLoRA:基于Hessian矩阵动态分配秩,关键模块(如注意力层)分配更高秩以提升微调效果。
  • 应用场景:移动端部署(QLoRA)、多任务学习(AdaLoRA)、高精度生成(DoRA)。
4.3.3 统一框架与新思路
  • IA3:通过缩放激活值调整模型输出,参数量极低(0.01%),适用于少样本场景。
  • UniPELT:动态融合多种PEFT方法(如Adapter+LoRA),提升多任务泛化能力,参数量减少30%。
  • TT-LoRA MoE:将LoRA与稀疏MoE结合,每个任务独立训练轻量专家,推理时动态路由,显存效率提升40%。
4.3.4 强化学习对齐方法
  • RLHF:通过人类标注的偏好数据训练奖励模型,优化生成内容与人类价值观对齐,但依赖高质量标注。
  • RLAIF:利用AI生成反馈替代人类标注,实验表明其效果与RLHF相当(偏好率71% vs 73%),显著降低标注成本。

4.4 总结与趋势

  1. 参数效率:LoRA及其变种(QLoRA/AdaLoRA)成为主流,平衡性能与显存需求。
  2. 多任务扩展:结合MoE的统一框架(如TT-LoRA MoE)推动多任务动态适配。
  3. 对齐技术:RLAIF逐步替代RLHF,解决标注瓶颈并提升扩展性。
  4. 量化与硬件适配:4-bit量化技术(如QLoRA)推动大模型在边缘设备部署。

更多技术细节可参考上述论文及开源库(如HuggingFace PEFT)。

四、大模型概念与训练过程

1、什么是大模型

在这里插入图片描述

1.1 大模型:像是一个“超级大脑”

想象你认识一个记忆力超群、知识渊博的图书管理员,他读完了全世界的书籍、论文、网页,甚至聊天记录。
这个“图书管理员”就是大模型(比如 ChatGPT)。其特点如下:

  • 知识量爆炸:记住的内容量,相当于把整个互联网装进脑子里。
  • 擅长联想:提问后会从海量知识中找到关联信息(如问“苹果”,立刻想到水果、手机公司、牛顿的故事)。
  • 会“思考”:能根据问题推测答案,甚至编故事、写诗,而非单纯复读已知内容。

举例:“为什么夏天比冬天热?”
- 传统搜索引擎:直接回复“因为地球公转导致阳光直射角度变化”。
- 大模型:可能会说:“夏天太阳更‘正对着’我们,阳光更集中,就像用手电筒直照地板比斜着照更亮更热。
另外,夏天白天更长,积攒的热量更多哦~” ,用熟悉比喻解释原理,展现“理解”能力。

1.2 Y=WX:像“调配奶茶的配方”

假设经营一家奶茶店,用数学公式决定奶茶味道:

  • X(输入):原料分量,如糖20g、茶100ml、奶50ml。
  • W(权重):对每种原料的重视程度。例如“甜度权重”高,糖多一点就更甜。
  • Y(输出):最终奶茶的味道评分(如甜度8分、茶香6分)。

公式意义
在这里插入图片描述

(这里假设糖对甜度影响最大,奶次之,茶不影响甜度)

实际应用
如果顾客反馈“不够甜”,就调高“糖”的权重(比如从 0.5 改成 0.7),下一杯就更甜。这就是机器学习:通过调整权重(W),让输出(Y)更符合目标(比如顾客口味)。

1.3 大模型和 Y=WX 的关系

可以把大模型想象成一家“巨型奶茶工厂”:

  • 原料(X):输入的问题,比如“北京有什么好玩的地方?”
  • 配方(W):大模型内部的数万亿个权重,决定如何组合文字(类似调奶茶的甜度、茶香)。这些权重是大模型通过“读书”(训练)学到的规则,比如“北京”关联“故宫”、“长城”。
  • 成品(Y):生成的回答,比如“推荐故宫、长城,春天可以去颐和园划船~”

关键区别

  • 巨型工厂(大模型):有10万种原料(文字、图片等),配方复杂到能模拟人类对话,甚至写代码、画图。
  • 普通奶茶店(小模型):只有10种原料,配方简单,只能做基础奶茶。

1.4 现实中的类比

  • 学英语
    大脑(大模型)通过大量听读(训练),建立单词间的联系(权重W)。
    当有人说“How are you?”(输入X),自动回答“I’m fine”(输出Y),无需查语法书。

  • 网购推荐
    平台用大模型分析购买过的商品(X),通过权重(W)计算可能喜欢的物品(Y)。
    比如权重发现常买咖啡,就推荐咖啡机(类似调高“咖啡”相关权重)。

1.4 总结

  • 大模型 = 超级大脑(海量知识 + 联想推理)
  • Y=WX = 调配“知识奶茶”的基础规则
  • 核心逻辑:大模型用数万亿个Y=WX的“小配方”,组合成复杂的“思维链”。就像用乐高积木搭出宇宙飞船,每一块积木(Y=WX)看似简单,组合起来却能实现神奇功能!

2、大模型训练过程详解

在这里插入图片描述

参考文章https://www.zco.com/blog/training-large-language-models/

2.1 第一步:准备学习资料(数据)

大模型的学习材料:互联网上的所有文本(书籍、网页、对话等),比如包含无数句子的“北京是中国的首都,有故宫、长城等景点”。相当于学霸有一屋子课本,每天疯狂刷题。

2.2 第二步:设定学习目标(训练任务)

大模型的核心训练任务是“完形填空”:
例子:给模型一句话:“北京有很多著名景点,比如和长城。”
目标:让模型预测空白处最可能的词(比如“故宫”)。相当于老师出填空题,学霸通过上下文推测答案。

2.3 第三步:试错与调整权重(参数更新)

  • 初次尝试:模型可能瞎猜一个词(比如“火锅”),然后对比正确答案“故宫”,发现错了。
  • 数学惩罚:计算“火锅”和“故宫”的差异(损失函数),用反向传播算法告诉模型:“‘火锅’在这个上下文里权重应该降低,‘故宫’的权重应该提高”。
  • 重复亿万次:模型在数万亿句子上重复这个过程,最终学会“北京→景点→故宫/长城”的强关联。相当于学霸每做错一题,就把相关知识点划重点(调权重),直到看到“北京”就条件反射想到“故宫”。

2.4 通过FQA来理解这个过程

🔴 具体到“北京→故宫”如何关联?

  • 词向量(Word Embedding)
    例子
    “北京” = [0.2, -0.5, 1.1, …]
    “故宫” = [0.3, -0.6, 0.9, …]
    (这些数字编码了语义,比如首都、景点、历史等属性)
    每个词(如“北京”“故宫”)被转换成一组数字(比如300维向量),类似用一串密码表示词义。
  • 权重矩阵(W)的作用:通过矩阵乘法(Y=WX),模型将“北京”的向量变换后,输出一个概率分布,指向最相关的词(如“故宫”概率最高)。
  • 训练后的效果:当模型看到“北京”时,它的权重矩阵会自动激活“景点”“历史”等属性通道,抑制“美食”“动物”等无关通道,最终输出“故宫”。

🔴 用现实例子理解训练过程
假设教小孩认动物:

  • 指着图片说:“这是猫,有尖耳朵、长尾巴。”(输入数据)
  • 小孩第一次看到狗,误认为是猫。(预测错误)
  • 纠正他:“这是狗,耳朵更圆。”(计算误差)
  • 小孩调整脑中的“猫狗特征权重”,下次更关注耳朵形状。(参数更新)

大模型的训练就是把这个过程自动化、规模化:

  • 数据量:小孩学100张图 → 模型学数万亿句子
  • 调整速度:小孩一天学10个词 → 模型一秒调整数百万次权重

🔴 为什么权重能记住复杂关系?

  • 分层学习
    • 第一层发现“北”和“京”常一起出现 → 学会“北京”是一个词。
    • 第五十层发现“北京”常和“首都”“景点”关联 → 建立城市属性。
    • 第一百层学会“推荐北京景点”应优先列出故宫、长城。
      模型像有多层流水线的工厂,底层学字母组合,中层学语法,高层学语义逻辑。
  • 注意力机制:类似人类阅读时“划重点”,模型通过自注意力机制,让“北京”和“故宫”在特定上下文中权重更高。
# 伪代码:模型内部对句子的“关注度”计算
当输入是“北京有什么景点?”时:
给“北京” + “景点”分配高注意力权重,
抑制“北京” + “烤鸭”的权重。

🔴 模型如何学习“北京→故宫”?

  • 见得多:在训练数据中,“北京”和“故宫”共同出现的频率极高。
  • 惩罚与奖励
    • 当模型猜错时,降低错误词的权重(如“火锅”)。
    • 猜对时,强化正确路径的权重(如“故宫”)。
  • 属性编码:最终,“北京”的向量表示中包含了“需要关联景点”的属性,而权重矩阵像条件反射网络,自动触发相关词。这就好比:如果每天听家人说“下雨要打伞”,重复100次后,一听到“下雨”就自动想到“伞”——只不过大模型用数学放大了亿万倍这个过程。

3、Y=WX相关学术资源

在这里插入图片描述

1. 经典论文

  1. 《Deep Learning》(Ian Goodfellow等著)

    • 章节:第6章"深度前馈网络"
    • 内容:详细讲解线性回归、权重初始化、激活函数等基础理论
    • 链接:深度学习 - 图书百科
  2. 《A Neural Probabilistic Language Model》(Bengio等著)

    • 贡献:首次提出基于神经网络的语言模型,核心公式为Y=WX+b
    • 链接:论文链接

2. 权威教程

  1. 吴恩达机器学习课程

    • 主题:线性回归与梯度下降
    • 内容:通过房价预测案例讲解Y=WX的实现与优化
    • 链接:Coursera课程
  2. Transformer前馈神经网络解析

    • 主题:Y=WX在注意力机制中的应用
    • 内容:结合Transformer模型说明权重矩阵的维度变换
    • 链接:技术文章

3. 进阶研究

  1. 《Large Scale Distributed Deep Networks》(Dean等著)

    • 贡献:提出分布式训练框架,解决大模型权重更新的效率问题
    • 链接:论文链接
  2. 《Loss of Plasticity in Deep Continual Learning》(Sutton等著)

    • 主题:持续学习中的权重优化
    • 内容:提出持续反向传播算法,解决模型可塑性下降问题
    • 链接:Nature论文

五、文章总结

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2373036.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

海康相机无损压缩

设置无损压缩得到更高的带宽和帧率!

从机器人到调度平台:超低延迟RTMP|RTSP播放器系统级部署之道

✅ 一、模块定位:跨平台、超低延迟、系统级稳定的音视频直播播放器内核 在无人机、机器人、远程操控手柄等场景中,低延迟的 RTSP/RTMP 播放器并不是“可有可无的体验优化”,而是系统能否闭环、操控是否安全的关键组成。 Windows和安卓播放RT…

研发效率破局之道阅读总结(5)管理文化

研发效率破局之道阅读总结(5)管理文化 Author: Once Day Date: 2025年5月10日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可参考专栏: 程序的艺术_Once-Day…

单因子实验 方差分析

本文是实验设计与分析(第6版,Montgomery著傅珏生译)第3章单因子实验 方差分析python解决方案。本文尽量避免重复书中的理论,着于提供python解决方案,并与原书的运算结果进行对比。您可以从 下载实验设计与分析(第6版&a…

Bitacora:基因组组件中基因家族识别和注释的综合工具

软件教程 | Bitacora:基因组组件中基因家族识别和注释的综合工具 https://zhangzl96.github.io/tags#生物信息工具) 📅 官方地址:https://github.com/molevol-ub/bitacora 🔬 教程版本:BITACORA 1.4 📋 …

【WebRTC-13】是在哪,什么时候,创建编解码器?

Android-RTC系列软重启,改变以往细读源代码的方式 改为 带上实际问题分析代码。增加实用性,方便形成肌肉记忆。同时不分种类、不分难易程度,在线征集问题切入点。 问题:编解码器的关键实体类是什么?在哪里&什么时候…

青少年编程与数学 02-019 Rust 编程基础 01课题、环境准备

青少年编程与数学 02-019 Rust 编程基础 01课题、环境准备 一、Rust核心特性应用场景开发工具社区与生态 二、Rust 和 Python 比较1. **内存安全与并发编程**2. **性能**3. **零成本抽象**4. **跨平台支持**5. **社区与生态系统**6. **错误处理**7. **安全性**适用场景总结 三、…

Redis持久化存储介质评估:NFS与Ceph的适用性分析

#作者:朱雷 文章目录 一、背景二、Redis持久化的必要性与影响1. 持久化的必要性2. 性能与稳定性问题 三、NFS作为持久化存储介质的问题1. 性能瓶颈2. 数据一致性问题3. 存储服务单点故障4. 高延迟影响持久化效率.5. 吞吐量瓶颈 四、Ceph作为持久化存储介质的问题1.…

Ceph 原理与集群配置

一、Ceph 工作原理 1.1.为什么学习 Ceph? 在学习了 NFS 存储之后,我们仍然需要学习 Ceph 存储。这主要是因为不同的存储系统适用于不同的场景,NFS 虽然有其适用之处,但也存在一定的局限性。而 Ceph 能够满足现代分布式、大规模、…

天线的PCB设计

目录 天线模块设计的重要性 天线模块的PCB设计 天线模块设计的重要性 当智能手表突然断连、无人机信号飘忽不定——你可能正在经历一场来自天线模块的"无声抗议"。这个隐藏在电子设备深处的关键组件,就像数字世界的隐形信使,用毫米级的精密结…

C++笔记-set和map的使用(包含multiset和multimap的讲解)

1.序列式容器和关联式容器 前面我们已经接触过STL中的部分容器如:string、vector、list、deque、array、forward_list等,这些容器统称为序列式容器,因为逻辑结构为线性序列的数据结构,两个位置存储的值之间一般没有紧密的关联关系&#xff0…

Linux `ifconfig` 指令深度解析与替代方案指南

Linux `ifconfig` 指令深度解析与替代方案指南 一、核心功能与现状1. 基础作用2. 版本适配二、基础语法与常用操作1. 标准语法2. 常用操作速查显示所有接口信息启用/禁用接口配置IPv4地址修改MAC地址(临时)三、高级配置技巧1. 虚拟接口创建2. MTU调整3. 多播配置4. ARP控制四…

Python pandas 向excel追加数据,不覆盖之前的数据

最近突然看了一下pandas向excel追加数据的方法,发现有很多人出了一些馊主意; 比如用concat,append等方法,这种方法的会先将旧数据df_1读取到内存,再把新数据df_2与旧的合并,形成df_new,再覆盖写入,消耗和速…

【金仓数据库征文】政府项目数据库迁移:从MySQL 5.7到KingbaseES的蜕变之路

摘要:本文详细阐述了政府项目中将 MySQL 5.7 数据库迁移至 KingbaseES 的全过程,涵盖迁移前的环境评估、数据梳理和工具准备,迁移实战中的数据源与目标库连接配置、迁移任务详细设定、执行迁移与过程监控,以及迁移后的质量验证、系…

Go语言——goflow工作流使用

一、引入依赖 这个很坑,他不允许连接带密码的redis,只能使用不带密码的redis,要带密码的话得自己改一下源代码,无语 go get github.com/s8sg/goflow二、画出我们的工作流程 三、编写代码 package mainimport ("encoding/j…

yarn npm pnpm

1 下载方式 npm 之前串行下载 现在并行下载 yarn 并行下载 加入缓存复用 pnpm 硬连接 避免重复下载,先检查本地是否存在,存在的话直接连接过去

Block Styler——字符串控件

字符串控件的应用 参考官方帮助案例:(这个方式感觉更好,第二种方式也可以)E:\NX1980\UGOPEN\SampleNXOpenApplications\C\BlockStyler\ColoredBlock 普通格式: 读取: //方法一 string0->GetProperti…

LangGraph(三)——添加记忆

目录 1. 创建MemorySaver检查指针2. 构建并编译Graph3. 与聊天机器人互动4. 问一个后续问题5. 检查State参考 1. 创建MemorySaver检查指针 创建MemorySaver检查指针: from langgraph.checkpoint.memory import MemorySavermemory MemorySaver()这是位于内存中的检…

【无标题】I/O复用(epoll)三者区别▲

一、SOCKET-IO复用技术 定义:SOCKET - IO复用技术是一种高效处理多个套接字(socket)的手段,能让单个线程同时监听多个文件描述符(如套接字)上的I/O事件(像可读、可写、异常)&#x…

ClassLoader类加载机制的核心引擎

ClassLoader类加载机制的核心引擎 文章目录 ClassLoader类加载机制的核心引擎1. ClassLoader基础1.1 什么是ClassLoader?1.2 ClassLoader的层次结构1.3 类加载的过程 2. 源码解析与工作原理2.1 ClassLoader的核心方法2.2 双亲委派模型的工作原理2.3 打破双亲委派模型…