LLMs 系列科普文（11）

目前我们已经介绍了大语言模型训练的两个主要阶段。第一阶段被称为预训练阶段，主要是基于互联网文档进行训练。当你用互联网文档训练一个语言模型时，得到的就是所谓的 base 模型，它本质上就是一个互联网文档模拟器，我们发现这是个有趣的产物，需要数千台计算机耗费数月时间训练。它有点像互联网的有损压缩版本。虽然极其有趣，但它并不直接实用，因为我们并不需要生成互联网文档样本。

我们想要向 AI 提问并让它回答我们的问题。为此，我们需要一个助手。我们发现，实际上可以在后训练的过程中，特别是在我们称之为监督微调的过程中构建这样一个助手。因此在这个阶段，我们发现它在算法上与预训练完全相同，不会有任何改变。唯一变化的是数据集。因此，我们不再局限于互联网文档，而是希望构建并精心打造一个优质的对话数据集。我们的目标是收集数百万条涵盖各类话题的人机对话记录。从根本上说，这些对话内容都将由人类创造生成。

人类负责编写提示词，人类也负责撰写理想回复。他们依据标注文档来完成这些工作。在现代技术栈中，这些工作实际上并非完全由人工手动完成，如今他们其实得到了这些工具的大量协助。因此，我们可以利用语言模型来协助创建这些数据集。并且我们会对其进行全面测试。但归根结底，这一切最终仍源自人类的精心筛选。所以我们创建了这些对话，这现在成为了我们的数据集。我们对其进行微调或继续训练，最终得到一个助手。

然后我们转变了话题，开始讨论这个助手可能带来的一些认知影响。我们发现，如果不采取一些缓解措施，助手会出现幻觉现象。因此，我们认识到幻觉可能会很常见。然后我们研究了一些缓解这些幻觉的方法。接着我们发现这些模型相当出色，能在脑海中处理大量信息。但我们也发现它们可以借助工具来提升表现。我们可以借助网络搜索来减少幻觉的产生，或许还能获取一些更新的信息或类似的内容。或者我们可以利用代码解释器等工具，这样大语言模型就能编写代码并实际运行它、查看结果。这些就是我们目前探讨过的部分主题。

现在我想做的是介绍这个流程的最后也是最重要的阶段，那就是强化学习。目前强化学习仍被认为属于后训练微调的范畴。但这是最后一个主要阶段。这是一种不同的语言模型训练方式，通常作为第三步进行。

十一、强化学习阶段

上面提到的这些阶段基本都是由独立的团队负责，有的团队专门负责预训练的数据工作，另一个团队负责预训练的训练工作。此外，还有一个团队专门负责对话生成，而另一个不同的团队则负责监督微调。还会有一个团队负责强化学习部分。这有点像这些模型的生产流水线过程：你先获得基础模型，然后微调成助手，接着进入强化学习阶段。这就是大致的主要流程。

现在让我们专注于强化学习，这是训练的最后主要阶段。首先，让我解释一下为什么要进行强化学习，以及从高层次来看它是什么样的。那么现在我想试着解释一下强化学习阶段及其对应的含义，基本上，这就相当于上学的过程。

就像你上学是为了精通某项技能一样，我们也要让大语言模型接受学校教育。实际上，我们正在通过几种范式来赋予它们知识或传授技能。具体来说，当我们使用学校教材时，你会发现这些教材包含三大类信息——三类主要的知识模块。

（蓝色箭头）首先你会注意到的是书本中存在大量解释性内容，就像是背景知识之类的，当你阅读这些说明性文字时，可以大致将其视为对这些数据的训练，这就是为什么当你阅读这些背景知识和上下文信息时，它有点像预训练的过程，我们在这里构建了一个关于这些数据的知识库，并对主题有了初步了解。

（红色箭头）接下来你会看到的主要信息是这些练习题的问题及其解决方案。简单来说，这本书的作者作为人类专家，不仅给我们提出了问题，还提供了解决方案。这个解决方案基本上等同于一个理想助手的完美回答。也就是说，专家实际上是在向我们示范如何解决这个问题。当我们阅读解决方案时，实际上是在用专家数据进行训练。之后，我们就可以尝试模仿专家的做法。这大致相当于拥有了 SFT 模型。所以基本上，我们已经完成了预训练，并且已经涵盖了专家模仿以及他们如何解决这些问题。

（绿色箭头）学习的第三阶段基本上是练习题。有时你会看到这里只有一个练习题，任何教科书的每章末尾通常都会有许多练习题。当然，我们知道练习题对学习至关重要，因为它们能让你做什么呢？它们能让你自己动手实践，并探索解决问题的方法。在练习题中，你会看到一个问题的描述，但不会直接给出解法，不过通常会提供最终答案（一般在教科书的最后答案部分）。所以你知道自己要达到的目标答案，也有问题的陈述，但没有具体的解题步骤。你正在尝试实践解决方案。你尝试了很多不同的方法，看看哪种方法能最好地帮你找到最终解决方案。因此，你正在自己探索如何解决这些问题。

在这个过程中，你首先依赖于来自预训练的背景信息，其次可能还会稍微模仿人类专家的做法。你或许可以尝试类似的解决方案等等。我们已经完成了这些步骤，现在在这一部分，我们将尝试进行实践。因此，我们将获得提示内容以及最终的答案，但我们不会得到专家级的解决方案。我们必须不断自己实践和尝试。这正是强化学习的核心 所在。

强化学习

在前文中，我们曾演示过，小明买苹果和橙子的计算题示例，我们把这个问题扔给 chatgpt，它可以每次都输出一些不同的中间过程，并且最终计算的结果也是正确的，例如我们重复了 4 次，这里有四个可能的候选解决方案作为例子，它们都得出答案 3。现在，我想让你意识到的是，如果你是负责创建对话的人类数据标注员，要将对话输入训练集，你应该做什么样的选择呢？实际上你可能并不确定该将其中哪个对话添加到数据集中。

其中一些对话会建立方程组，有些则只是用文字的形式讨论问题，还有些则直接跳到解决方案。但我们必须明白并区分的是，解决方案的首要目的当然是得出正确答案。我们想要得到最终答案 3，这是这里的重要目的。但还有一个次要目的，就是我们也在努力让它对人类友好，因为我们假设这个人想看到解决方案，他们想看到中间步骤，我们想很好地呈现它，等等。

所以这里有两件不同的事情。第一件是向人类展示，第二件，我们实际上是在试图得到正确的答案。所以让我们暂时专注于得出最终答案。如果我们只关心最终答案，那么在这些选项中，哪个是最优的或者说最佳解决方案，能让大语言模型得出正确答案？我们并不知道。

也许让 token 更分散地展开会更有效，也许把它列成方程式会更好，也许通过讨论来解决会更合适。从根本上说，我们并不清楚。我们不清楚的原因是，对你我或人类标注员而言容易或困难的任务，与对大语言模型来说的难易程度并不相同，它的认知方式与我们不同，对我来说轻而易举的 token 序列，对 LLMs 来说可能是个巨大的跨越。

而且，由于一些书写格式的问题，我们创建的许多 token 对 LLMs 来说可能毫无意义。我们只是在浪费 token，既然这些都无关紧要，为何要浪费这些 token 呢，如果我们唯一关心的是得到最终答案，而将呈现给人的问题分开考虑，那么我们实际上并不知道该如何标注这个例子。

我们不知道应该给大语言模型提供什么解决方案，因为我们不是大语言模型。这在数学案例中表现得非常明显，但实际上这是一个普遍存在的问题。我们的知识并不等同于大语言模型的知识。这个大型语言模型实际上掌握了大量数学、物理、化学等领域的博士级知识。在很多方面，它确实比我们知道得更多。而我可能在解决问题时并没有充分利用这些知识。

但反过来，我可能在解决方案中注入了一堆大语言模型参数中并不掌握的知识。这些突如其来的知识跃迁会让模型感到非常困惑。因此，我们的认知方式存在差异。如果我们只关心最终解决方案并以经济高效的方式实现目标，那我真的不知道该在这里写些什么。简而言之，我们目前并不擅长为 LLM 创建这些 token 序列。但我们真正希望的是让大语言模型自己去发现适合它的 token 序列。它需要自行找出在给定提示下能可靠得出答案的 token 序列，它需要通过强化学习和试错的过程来发现这一点。

强化学习的基本运作方式其实相当简单。我们需要尝试多种不同的解决方案，然后观察哪些方案效果好，哪些效果不佳。所以我们要做的就是输出提示，运行模型。模型会生成解决方案。然后我们会检查这个解决方案。我们知道这道题的正确答案是 3 元。然后我们多重复运行几次，每次模型都会给出不一样的内容，每次得到的答案也可能正确，也可能不正确。

因此在实际操作中，你可能会针对同一个提示采样数千个独立解，甚至可能达到百万量级。其中一些会是正确的，另一些则不太正确。基本上，我们希望做的是鼓励那些能得出正确答案的解决方案。

这个示意图，展示了大致的样貌。我们有一个提示，然后我们并行尝试了许多不同的解决方案。其中一些方案可能表现良好，因此它们得到了正确的答案，用绿色表示。有些解决方案可能效果不佳，甚至无法得出正确答案——也就是红色。不过，眼前这个问题其实算不上最佳范例，因为它实在过于简单。

但让我们发挥一下想象力。假设绿色的代表好的，红色的代表坏的。好的，我们生成了 15 个解决方案，其中只有 4（3 绿 1 黄）个得到了正确答案。那么现在我们要做的就是，基本上，我们希望鼓励那些能得出正确答案的解决方案类型。所以，在这些红色解决方案中出现的任何 token 序列，显然在某个环节出了问题，它们并不是解决这个问题的好方法。那些绿色解决方案中的任何 token 序列，在这种情况下都表现得相当不错。因此，我们希望在这类提示中更多地采用类似的做法。

而我们鼓励未来这种行为的方式，本质上就是对这些序列进行训练。但现在这些训练序列并非来自专家的人工标注，也没有人判定这就是正确的解决方案，这个解决方案源自模型本身。因此，模型在这里进行实践，它尝试了几种解决方案，其中 4 种似乎奏效了，现在模型将对这些方案进行某种训练。而这相当于一种认可，就像在说：“好吧，这个确实效果很好。所以我应该用这种方式来解决这类问题。”

为了传达核心概念，或许可以简单地理解为从这 4 个方案中选出最优的一个，比如标为黄色的这个。这个方案不仅得出了正确答案，可能还具有其他优点。也许它是最简洁的，或者在某种程度上看起来最漂亮，或者你还能想到其他评判标准作为例子。但我们会认定这是最佳解决方案，并据此进行训练。经过参数更新后，模型在未来遇到类似情境时，就会更倾向于选择这条路径。但必须记住，我们会在大量数学、物理等各种问题上运行多种多样的提示。

因此，成千上万的提示词背后，可能对应着每个提示词都有数千种解决方案。这一切几乎是在同时发生的。随着我们不断迭代这一过程，模型会自行发现哪些 token 序列能引导它得出正确答案。这不是来自人类标注者的数据。模型就像在这个游乐场里玩耍。它知道自己想要达到什么目标，并且正在发现对它有效的序列。这些序列不需要任何思维跳跃。它们看起来可靠且符合统计规律，并充分利用了模型已有的知识。这就是强化学习的过程。这基本上就是一个不断试错的过程。我们会尝试各种不同的解决方案，验证它们的效果，并在未来更多地采用那些行之有效的方法。这就是强化学习的核心思想。

因此，结合之前的讨论，我们现在可以看到，监督微调模型仍然是有帮助的，因为它有点像将模型初步引导到正确解决方案的附近。可以说，它是对模型的一种初始化，让模型能够生成解决方案，比如写出解题步骤，或许还能理解如何建立方程组，或者以某种方式与解决方案进行"对话"。这样，它就能让你接近正确的解决方案。

但强化学习才是真正让一切趋于完美的关键。我们会不断探索适合模型的解决方案，找到正确答案并加以鼓励，这样模型就会随着时间的推移逐渐变得更好。

以上就是我们训练大语言模型的高层次流程。简而言之，我们训练 AI 的方式与教育儿童非常相似。唯一的区别在于，儿童是通过书籍的章节学习，在每本书的不同章节中完成各类训练练习。而我们训练 AI 时，更像是根据每个阶段的特点分步骤进行。

首先，我们进行预训练，这相当于阅读所有的说明性材料。我们会同时浏览所有教材，阅读所有解释内容，并尝试构建一个知识库。接下来，我们进入监督微调阶段，这一阶段主要是研究人类专家提供的各种固定解法，涵盖所有教材中的各类习题解答。而我们得到的只是一个 SFT 模型，它能够模仿专家的行为，但某种程度上是盲目模仿。它更像是尽最大努力去猜测，试图从统计角度模仿专家的行为。因此，当你查看所有解决方案时，这就是你所得到的结果。

最后，在最后一个阶段，我们会在强化学习阶段完成所有的练习题。我们只做所有教材中的练习题。这就是我们得到强化学习模型的方法。

事实上前两个阶段——预训练和监督微调——已经存在多年，它们非常标准化，所有不同的大语言模型提供商都在采用。而最后一个阶段，即强化学习训练，目前仍处于发展初期，在该领域尚未形成统一标准。原因在于，我实际上跳过了这个过程中的大量细节，但此处我们暂不展开更多内容。

但高层次的理念的确非常简单，就是一种不断试错学习的过程，但其中涉及大量细节和微妙的数学技巧——比如如何挑选最优解、训练量如何把控、提示词分布如何设计，以及如何设置训练流程才能使其真正奏效。核心思想虽然极其简单，却需要调节无数细枝末节的参数。因此，要把这些细节做到位绝非易事。