大模型基础概念详解：从AI到生成式AI的学习路径

news2026/3/16 11:31:06

这篇文章是学习李宏毅《生成式AI导论》的笔记系统介绍了AI、机器学习、生成式AI的基本概念和关系详细解析了大语言模型的工作原理和Transformer架构分享了有效使用大模型的方法包括提示词工程、任务拆解等技巧并探讨了大语言模型的三个训练阶段及Agent技术应用为读者提供了全面的大模型知识框架和实践指导。1、生成式 AI 是怎么回事人工智能Artificial Intelligence“智能”是一个广泛而复杂的概念其定义和应用范围随着技术、科学和社会的发展不断演变。在当前的语境下“智能”通常与人工智能AI相关联指的是通过机器模拟人类智能行为的能力包括感知、学习、推理、决策等能力。上面这段话有很多模糊的词语广泛而复杂、不断演变、通常、等……为什么会出现这个现象呢因为“智能”不是一个定义、也不是一个技术只是一个目标。所以在相关的论文中从来不会出现“人工智能”这个词因为论文要的是严谨而智能的标准每个人的认知是不同的。机器学习机器学习 ≈ 机器自动从数据中找到一个函数。本科的时候一个周末我坐了一个多小时的公交车跑去余家头校区约一个老师询问“模型”是怎么回事然后老师在黑板上给我写下了一个函数y f(x) ax b其中 a、b 为参数。他说这就是最简单的模型当给出样本如 x4y5 和 x2y-1 即可得到一组 a、b那么就得到了这个函数再输入新的 x 时即可输出 y完成预测。所有的模型都是 f(x) ax b 这个函数的演变比如参数增加x 变成非线性……到了机器学习还是一个函数只不过这个函数的参数变多了变成了上万个。这个函数就是我老师说的“模型”而机器学习就是通过训练training、学习learning 把这上万个参数找出来的过程。用来找出上万个参数的输入输出的数据就是训练数据。参数找出来之后你代入新的输入来查看输出就是测试testing或推论inference。深度学习深度学习Deep Learning简称DL是机器学习领域的一个重要分支其核心思想是通过模仿人脑神经网络的结构和功能利用多层非线性处理单元即深度神经网络来自动提取数据中的特征并解决复杂的模式识别问题。简单点理解就是上面那上万个参数不是简单地线性叠加而是通过多层交互得到。生成式人工智能Generative AI生成式人工智能Generative AI题眼在生成也就是产生新的。除了生成式人工智能解决的更多是分类Classification问题也就是从有限的选项中做选择。比如垃圾邮件检测、图像识别、商品排序等类似于我们考试中的客观题。但生成式就必须创造性回答并不是在已有答案中选择最好的而是要不断“生成”还要确定是否答完了拥有无限可能类似于我们考试中的主观题。既然对于考试而言主观题比客观题更难、分值更高那么在人工智能领域生成式也自然更难。李宏毅老师说生成式人工智能是机器产生复杂而有结构的物件比如文章、影像、语音等。而什么是“复杂”呢所谓复杂就是几乎无法穷举。什么叫几乎不可穷举呢我们回过头来看垃圾邮件检测结果就是 True/False图像识别结果就是各种物品、动植物、人等商品排序也就是在几万几十万的候选里面去做排序。这些都是在确定的候选集里面去做选择也就是可穷举。而假设我们现在要写 100 字的作文标题叫《我爱我的祖国》会有多少种可能性呢常用汉字有 3500 个我们假设最最最常用的有 1000 个那么 100 字的作文就是 1000 × 1000 × 1000 × … × 1000 1000^100 10^300 种可能与之相对应的是宇宙中的粒子有 10^80 个。生成式就是从这近乎无穷的组合中找到一组比较好的组合。ChatGPT 语言模型ChatGPT 的突然大火让大语言模型被高度关注之后的大语言模型如雨后春笋一样涌现出来。ChatGPT 这种大语言模型本质上也是一个函数只不过这个函数有上亿个甚至数十亿个参数。大语言模型又是怎么解决前面无法穷举的问题的呢文字接龙和 ChatGPT 一样的大语言模型并不是根据问题直接在无数种可能中预测出正确结果而是只预测后面一个字完成文字接龙这就把一个乘法运算变成了加法运算计算量就瞬间可控了。也就是巧妙地用分类策略解决了生成式问题。Transformer模型的演进是一个过程目前大模型主要使用的基本都是 Transformer。Transformer 是一种深度学习模型最初由 Google 在 2017 年提出其核心思想是通过自注意力机制Self-Attention Mechanism来捕捉序列中各元素之间的关系从而实现对输入数据的高效处理。大致的过程比较清晰是一个从局部到整体的过程和我们平时工作流程差不多先把细节的、模块的处理好再整体通盘考虑进行整合最终得到一个高质量的产出结果。在 Transformer 中这个过程分为 5 步分别是将输入的文字转换为 Token、理解每个 Token、理解上下文、整合思考、输出结果。Tokenization把文字转成 tokentoken 是大语言模型处理的最小单位一些大模型产品所说的可以支持多少 token 输入、多少输出用的就是这个概念。但是一个 token 并不一定是一个词或者一个字而可能是一个单词、词组或者是词根汉语的话可能是一个词、一个字也有可能一个字拆成两个 token。这个 token list 是提前人工设置好的每个语言模型的 token list 并不相同。Input Layer理解每个Token在机器学习中一般会把要处理的数据转换为向量Vector也就是把高维数据映射到低维空间这个转换过程叫做 Embedding。把数据转换为向量之后就可以通过向量的计算来获得数据的相似性。也就是说接近的 Embedding 其 token 的意思也是相近的。要注意这个 Embedding 是通过训练获得的参数存储在数据库中在使用的时候直接查表得到。在大模型的训练过程中需要耗费大量资源动辄训练几个月其中一部分工作就是训练这个 Embedding开源模型开源的参数也有一部分是这个。除了需要理解每个 token 的语意信息还需要理解 token 的位置信息因为一个字在不同位置含义差别很大。Attention理解上下文相同的字词放在不同的语境中含义差别很大比如“苹果”既可以指水果也可以指一个电子产品的品牌。那么就需要结合上下文信息来确定输入想要表达的真实含义是哪一个。Attention Weight计算每个 token其实是经过 embedding 后的向量与其他 token 之间的相关性用一个得分表示也就是相关性权重叫做 Attention Weight。Attention Matrix把所有的 token 两两之间计算 Attention Weight就可以得到一个矩阵 Attention Matrix。Causal Attention在得到所有的 Attention Weight 后需要把相关的信息进行集合。而在实际的计算中往往只需要考虑左边的 token也就是 Causal Attention。Multi-head Attention在计算相关性的时候其实是计算了某一个维度的相关性也就是一个多维向量在某个低维平面的投影。类似于我们看到的北斗七星、猎户座其实是从地球视角出发的一个二维平面上的投影如果在宇宙中的另外一个角度去观察就会变成另外的形状。所以说如果进行一次相关性的计算就会导致原始信息的丢失如果想要更多地保留原始信息就要找多个角度来计算相关性也就是 Multi-head Attention。Feed Forward整合思考Feed Forward 是一个前馈网络组件提供一个非线性变换能力从而整合更多维度的信息提取更复杂的特征和关系提高模型的拟合能力。在前面 Multi-head Attention 中我们计算了非常多的相关性在这一步就会综合考虑得到一个最终的相关性结果。Attention 和 Feed Forward 这两个过程统一叫做 Transformer Block而在实际的工作中为了拟合效果更好往往要进行多层的 Transformer Block。Output Layer得到输出在前面的工作中得到了一个非常高维度空间的数据但是最终我们要使用的还是一个线性结果也就是一个按照概率分布的词汇表。所以需要通过线性变化Linear Transform把一个高维数据映射到目标词汇表的大小。然后再经过 Softmax 函数将结果词汇表转换为概率分布将每个元素归一化为介于 0 到 1 之间的值并确保所有输出值的和为 1。最终我们得到的是一个归一化的概率分布词汇token表这也就解释了为什么每一次大模型输出的结果都不相同这是因为在文字接龙的时候每次接龙的候选项都不是一个确定的值而是一个候选项集合里面每个元素的概率不同然后类似于我们掷骰子每次掷一下从词汇表得到一个结果概率分布相同但是结果不同。上面就是生成式 AI 相关的一些概念。我们整理一下它们的关系。其中人工智能和生成式人工智能都是我们的目标而机器学习和深度学习是技术手段。但是在当今生成式人工智能都是通过深度学习这个技术手段来完成的所以可以适当调整上面的关系图。2、熟练使用生成式 AI工具 -- 工具人生成式人工智能起步其实非常早了但是被大家热议是从以 ChatGPT-3.5 为代表的大语言模型走入人们视野开始的。之前的生成式人工智能是以专业工具的形态出现的如 google 翻译而现在的生成式人工智能是以具备通才能力的工具人形态出现的。它不再是解决某一个领域的问题而是像人一样具备非常多的知识可以解决各个方面的问题。基于这个认知我们如何使用大模型如何跟大模型沟通就比较清晰了把大模型当做一个新人助理。再解释一下就是它不了解专属于你的知识、它拥有一般人的基本知识和理解能力。充分沟通让你的模型更强大神奇咒语没啥用大模型刚出来的时候出现了一个很奇葩的现象就是做大模型的没有赚到钱但是教怎么使用大模型的人赚得盆满钵满。这些人在教什么呢教提示词、神奇咒语。有用吗貌似挺有用但是除了上课跟着老师跑了几个例子快乐一下外并没有其他的用处。就像你能够写代码打印出一行“Hello World!”和真正的程序员通过代码解决实际问题的差距一样大。有人专门去研究了比较流行的神奇咒语让模型思考Chain of ThoughtCoTLet’s think step by step.GPT-2有用3.5 以上影响不大让模型解释自己的答案GPT-3 有用后面影响不大对模型进行情感绑架部分有用This is very important to me.对模型有礼貌没有用为什么很多后来都没有用了呢我个人的理解不是李宏毅老师说的是因为算力增强了、模型进化了。在过去比如 GPT-2 的时候算力还不够所以很多时候只能简单回答如果回答非常详细会很慢甚至无法输出结果但是我们知道摩尔定律依旧在发挥威力现在的算力已经非常强好多大模型都给出了“深度思考”模式人家自己都在深度思考了你去提示人家要“step by step”是模型傻还是你傻还有就是模型的进化越来越成熟、思考能力越来越强一次答对的情况会大幅提高不至于先随便答一下然后让它解释一下后再发现很多错误进行纠正。它是一个助理具备一定的理解能力和基本知识不需要像对待小孩子那样去跟它说话。提供足够的信息才有用我之前看过一个沟通模型是说你心里想的信息从说出来、被听到、被听懂逐渐衰减最后被对方记住的只有 20%。如果再叠加一些个人情绪这个比例就会更低。所以沟通本来就是人类的一大难题而前面提到把大模型当做新人助理那么所谓的 Prompt 工程就是解决如何跟人高效沟通的问题。所以对大模型真正有效的是补充前提有一些专有知识是属于我们个人或者是我们所在的环境的。比如提起故宫在北京和在台北所指的就不是一个学校所以要告诉大模型你是哪里人或者你问的是哪里的故宫。提供大模型原本不知道的信息这是因为大模型在训练完之后知识储备就已经确定了不会继续更新。所以在大模型训练完之后产生的信息它是不知道的你需要额外告诉它比如给他一份新闻或者报告。提供范例In-context learning这个主要是依赖大模型的理解能力你可以要求它按照某种格式输出或者按照某种新设定的规范产生判断即使不符合常识。注意这里并没有额外训练模型只是依赖理解能力完成当前交流。拆解任务——当个好师兄前面反复提到生成式 AI 是个新人助理所以你交给大模型做的任务需要进行拆解变成细粒度的、模块化的任务就像职场中的师兄带新人一样。如果你直接丢给它一个复杂的任务它肯定是一脸懵不知道从哪里开始。在之前比较老的模型上面Chain of Thought 之所以有效就是因为模型会把过程一步一步列出来相当于对任务进行了拆解。但是在模型迭代发展之后对于一些简单任务模型本身就可以拆解得很好了可以观察一下 DeepSeek 输出的思考过程。但是对于比较复杂的任务还是需要进行人工拆解的就像是给你师弟布置任务一样。我想到另外一个问题就是生成式 AI要不断接龙那么越往后积累的偏差也就越大所以我们要尽量控制每项任务的粒度让模型不断校准回归主线才能保证交付质量。自我反省无论是对于人还是对于生成式 AI都有一个现象是产生答案很难但是检查答案是否正确却很容易。因为检查并不需要走生成相同的路径。比如你解一道方程要非常麻烦但是只需要代入几个数字就可以检验正确性。所以利用模型的自我反省能力可以提升输出质量。多次回答Self-Consistency这让我想起我上学的时候解数学题通常是使用多种方法得到相同结果后才放心我的答案是对的。原来这里还有个专有名词 Self-Consistency也就是自一致性。主要通过生成多个不同的推理路径并从中选择最一致的答案来完成任务。成年人的选择——全都要上面提到了一些有效的方法那么在我们实际的使用中要采用哪些方法呢当然是不做选择全都要当然也要看任务难度比较简单的也没必要浪费这么多算力选择合适的方案就行。比如一个叫 Tree of ThoughtsToT的方案。当然还有很多其他的方案比如 Algorithm of Thoughts、Graph of ThoughtsGoT等但是基本上都是以上各个方法的不同组合方式。取长补短大模型一个比较的问题就是知识停止在训练结束的那一刻另一个是很容易产生幻觉即使对于不确信的内容也可以陈述地头头是道。为了解决这个问题就可以提供真实的信息源叠加大模型的理解、总结能力得到更优质的答案这个技术叫做搜索增强生成Retrieval Augmented Generation。比如在一年前我就用秘塔搜索取代了 Google 和百度成为了我浏览器的默认搜索引擎。模型合作除了借助搜索引擎等其他工具取长补短外还可以借助其他的语言模型让不同的语言模型发挥自己的特长一起完成任务。路由路由模式由一个路由模型和其他几个能力不同、版本不同或者是成本不同的专有模型组成一个任务来了之后先交给路由模型来确定该由哪个模型来执行任务然后将任务交由相应的专有模型完成最终任务。多模型讨论有句俗语叫做“三个臭皮匠顶个诸葛亮”三个臭皮匠是不是能顶个诸葛亮咱不知道但是三个臭皮匠肯定顶过一个臭皮匠三个诸葛亮也肯定顶过一个诸葛亮。经过实验也得出了明确的结论就是多个模型讨论的效果要好过一个模型自我反省。其中参与的模型越多、讨论的次数越多准确率越高。而讨论的方式也存在很多种不同的任务最适合的讨论方式也不一样目前并没有一个明确优势的方式胜出。在多模型讨论过程中需要引入一个裁判来确定讨论结束。但是并不需要担心讨论停不下来因为大模型都太谦虚了基本上很快就会达成一致。所以为了避免马上结束需要给大模型一些指令你并不需要完全同意对方的想法可以提出自己的意见另一个模型的答案作为参考就好角色扮演这个比较容易理解因为不同的模型本来擅长的工作不一样另外给每个模型指定一个特定的角色代入可以更好地完成相关任务。如果能把这个模式玩转了那么就人人都是 CEO 了。3、大语言模型的训练阶段大语言模型是一个文字接龙游戏输入一些字经过模型后返回接下来的字。用前面的函数表示大模型的训练就是用机器学习的技术方法使用大量的训练数据把这数十亿的参数找出来。大模型训练失败比较常见的存在两个点训练失败也就是算不出这数十亿个参数。这一般是由于在训练开始前人工设置的超参hyperparameter不好导致的所以需要重新换个超参再来一遍。我们平时开玩笑说算法工程师就是调参工程师调整的就是这个超参。训练成功但是测试失败。这往往是发生了过拟合。解决这个问题主要是靠增加训练数据的多样性或者初始参数使用一组更好的参数而非随机比如用开源模型公开的参数。特别注意一点大语言模型的所有阶段都是在学习文字接龙不同训练阶段只是训练数据不同。1.Pre Train自我学习积累实力自监督学习Self-supervised Learning数据量经常听到大语言模型厂商披露说自己使用了多少 G、多少 T 的数据量为什么这么大呢其实对于大模型要学习的知识主要分成两种语言知识和世界知识。对于训练一个模型而言需要的这两种训练数据量差异是非常大的语言知识1 亿个词汇即可世界知识300 亿个词汇还不够这也许就是为什么检查语法错误、翻译相对比较容易而具备思考能力的大语言模型在最近几年才火起来的原因吧。训练数据获取目前主要是通过网络获取数据。所以数据的质量参差不齐需要进行一系列处理。过滤有害内容去除 HTML tag 等符号但会保留表情符号因为 emoji 已经成为了文字的一部分去除低品质数据可以使用品质分类器比较高品质的数据来源有维基百科、教科书等去重包含重复内容去除和文档去重测试集过滤影响模型效果的因素先天条件参数量后天努力学习数据量模型参数量资料量GPT-1117M1 亿7000 本书GPT-21542M15 亿40GGPT-3175BGPT-2 的 100 倍580G300B tokens30 万遍哈利波特全集2.Instruction Fine-tuning名师指点发挥潜力监督学习Supervised Learning大量的训练都是在第一阶段机器通过自监督学习完成的。为何不使用监督学习呢因为太贵了需要大量的人力进行数据标注。但是在第二阶段就还是需要人为干预进行指令微调我们经常听到的“对齐”就是在这个阶段。Adapter一般为了保证效果要求第二阶段期指令微调后的参数与第一阶段偏差不大。为了满足这个要求部分模型引入了一个 Adapter 的技术也就是在原有参数上叠加少量参数而不是直接对原有现场值进行修改。举一反三Pre-train 已经学习到了非常复杂的规则所以在做最佳化后可以有很强的举一反三的能力。比如只需要告诉大模型中国最长的河流是长江那么它就可以知道世界上最长的河流是尼罗河。语言扩展如果大模型已经在多种语言上做过预训练那么在第二阶段指令微调只需要学习一种语言的任务比如阅读理解那么就可以自动学会其他语言的同样任务。这个和我们人类类似因为底层思维、世界知识是一样的语言只是一种表达。当我们通过母语学会了物理、数学知识后我们并不需要用英语再学习一遍只需要学习英文单词、语法就可以通过英语解题了。Fine-tuning 路线之前人们期待打造一个个专才使用的技术是 Bert。但是后来发现需要的专才太多了成本太高完全训练不过来。于是换个思路直接训练一个通才。现在流行的大模型都是通才的思路。训练过程就是“不断学习定期复习”。画龙点睛Instruction Fine-tuning 并不需要大量的资料有两句业内比较流行的话Quality Is All You Need.Less Is More for Aligment.“兵在精而不在多”“少即是多”看来这两句颇具哲学意味的话在很多场合都适用。3.Reinforcement Learning from Human Feedback (RLHF)参与实战打磨技巧强化学习Reinforcement Learning工作过的人都知道很多知识都是在工作中为了解决问题实际使用后才真正理解的能力也是这个时候才提升的所谓“纸上得来终觉浅绝知此事要躬行。”大模型也是经过前两个阶段的训练、对齐最后经过实战不断打磨获得终极能力。“实践是检验真理的唯一标准”在最后这步强化学习最主要的就是按照最终目标确定输出结果的好坏。训练阶段学习方式获得能力第一阶段 Pre-trainSelf-supervised Learning 自监督学习输入人工智输出能第二阶段 Instruction Fine-tuningSupervised Learning 监督学习输入“USER你是谁AI” 输出“我”第三阶段 RLHFReinforcement Learning 强化学习输入“USER中国最长的河流是哪条AI” 输出“长江” “我不知道”其中 RLHF 和 Instruction Fine-tuning 在训练数据和目标上的差异Instruction Fine-tuningRLHF训练数据生产人工生产标注数据很辛苦人工比较结果好坏很容易模型学习只看过程不看结果接龙只看结果不看过程通盘考虑语言模型 VS 下围棋大语言模型和下围棋非常相似每一步都是一个分类问题整体是一个生成式问题两者的学习过程第一阶段第二阶段第三阶段RL围棋跟棋谱学习老师下哪里就下哪里提高能够最终获胜的棋步概率标准明确、结果单一输赢语言模型Pre-trainInstruction Fine-tuning 老师说什么就跟着说什么提升好答案的概率标准不一多个答案比较而不是单一答案的评价反馈模型Reward Model在第三步的实战中需要有一个反馈来迭代模型。比如我们常见的商品推荐系统可以采集用户的点击、收藏、下单等埋点数据用来反馈。而 ChatGPT 因为是一个在线服务所以用户也可以在获取答案后来点击好或者不好甚至是重新生成答案以此来获取反馈。但是这个数据量还是太少了所以可以考虑使用反馈模型来担任评分员。甚至是可以使用同一个语言模型来完成相关工作把 RLHF 变为 RLAIF。4、不只问答——打造 Agent独立完成任务我们对生成式 AI 的期待肯定不只是问答、生图这么单一的诉求我们期待大模型像一个专业人士一样可以解决一系列的问题进而完成一个目标。这就是 AI Agent也就是可以根据目标制定计划、执行涉及某个专业的多个任务、并在进行中修改计划的 AI 系统。拥有记忆打造 Agent最关键的一个问题就是把执行这个任务过程中短期获得的经验记录下来并且应用于接下来的动作因为大模型在训练完之后不再有迭代能力新的知识无法输入到模型大模型的输入输出容量有限即使当下可以不断追加输入输出信息但是也不可能一个对话 session 无限期使用下去。所以我们需要额外帮助模型处理记忆问题。虚拟村庄这是斯坦福大学和谷歌合作的一个项目使用 AI 村民运行了一个虚拟村庄来研究 AI Agent以此作为这篇文章的结尾吧。这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2415998.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！