自然语言处理—

自然语言处理——Transformer

自注意力机制
多头注意力机制
Transformer

虽然循环神经网络可以对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，但是它有一个很大的缺陷——很难并行化。

我们可以考虑用CNN来替代RNN，但是缺点是显而易见的——只能捕获局部信息
这就引出了自注意力机制。在这里插入图片描述

自注意力机制

首先我们需要先回顾一下注意力机制，在经典的注意力机制中，例如在机器翻译任务中，通常会有两个不同的序列：源语言序列（作为编码器的输出）和目标语言序列（作为解码器的输入）。

查询（Query）：通常来自目标序列的当前元素（或者解码器的隐藏状态）。
键（Key）：来自源序列的所有元素。
值（Value）：同样来自源序列的所有元素。

通过计算查询与所有键的相似度，得到一个注意力权重分布，然后将这些权重应用于对应的值，加权求和得到一个上下文向量。这个上下文向量包含了源序列中与查询相关的信息，帮助模型更好地进行解码。
在这里插入图片描述
而在自注意力机制中，查询（Query）、键（Key）和值（Value）都来自同一个输入序列。
这意味着模型在处理一个序列中的某个元素时，会去关注该序列中所有其他元素，并根据它们之间的相关性来加权整合信息，从而更好地表示当前元素。

自注意力机制的计算步骤如下：

首先通过输入序列计算Q、K、V三个矩阵，将整个序列的输入向量 X 视为一个矩阵，我们可以并行地计算所有 Q,K,V 矩阵
$Q=X W_{Q}\\K=X W_{K}\\V=X W_{V}$
对于序列中的每个查询向量 $q_i$ ，我们需要计算它与所有键向量 $k_j$ 的相似度（或“注意力分数”）。最常用的方法是点积（Dot Product）： $\operatorname{score}\left(q_{i}, k_{j}\right)=q_{i} \cdot k_{j}=q_{i} k_{j}^{T}$
更正式地，我们可以将 Q 矩阵和 K 矩阵相乘，得到所有查询与所有键的相似度矩阵： $Scores=Q K^{T}$
为了防止点积结果过大导致 softmax 函数进入梯度饱和区，同时当向量维度变大的时候，softmax 函数会造成梯度消失问题，通常会将注意力分数除以 $d_k$ 的平方根。这被称为缩放点积注意力（Scaled Dot-Product Attention）,这个缩放因子有助于保持梯度的稳定性。 $=\frac{Q K^{T}}{\sqrt{d_{k}}}$
对缩放后的注意力分数矩阵的每一行（对应每个 $q_i$ 对所有 $k_j$ 的关注程度）应用 Softmax 函数，注意是在每一列上进行Softmax。这会将分数转换为一个概率分布，使得所有注意力权重之和为 1。 $AttentionScores=\operatorname{Softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right)$
最后，将注意力权重与值向量 V 进行加权求和，得到每个输入元素的最终输出表示。 $\cdot V$

一个简化的一元自注意力计算流程可以概括为： $\operatorname{Attention}(Q, K, V)=\operatorname{Softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V$
这个公式是自注意力机制的精髓。

多头注意力机制

以二头注意力为例，下图中的重点为如何生成多头 Q, K, V ，对于 $q^i$ ，我们将其分成了 $q^{i,1}$ 和 $q^{i,2}$ ，分别代表第一个头和第二个头的查询向量。同理对于 $k^i$ 和 $v^i$ ，我们同样也对进行划分。图中左上角的公式表示在划分时， $q^{i,1}$ 和 $q^{i,2}$ 的得到方式中，原始的 $q^i$ 会被不同的权重矩阵相乘。在实际应用上，更常见的实现方式是，每个注意力头有自己独立的 $W_{Q}^{(h)}, W_{K}^{(h)}, W_{V}^{(h)}$ 矩阵，直接将原始输入 $a^i$ 映射到每个头的 $q^{(h)}, k^{(h)}, v^{(h)}$
在这里插入图片描述
多头注意力机制的最后，我们将得到的两个输出 $b^{i,1}$ 和 $b^{i,2}$ 进行拼接，再乘以 $W^O$ 矩阵就可以得到最终的输出 $b^i$ 了。

自注意力机制缺陷——忽略了序列中的位置信息
为每个位置引入一个位置编码 $e^i$ ，可以通过人工构造，也可以通过参数学习。在这里插入图片描述

Transformer

如图是Transformer的具体架构，可以简化为Encoder-Decoder架构
在这里插入图片描述
如图所示，Encoder 的左侧部分是一个多层堆叠的结构，由多个相同的“Block”组成。
输入： $x_1,x_2,x_3,x_4$ 代表输入序列中的四个 Token（可以是词嵌入向量加上位置编码）。
输出： $h_1,h_2,h_3,h_4$ 代表经过 Encoder 编码后得到的每个 Token 的上下文表示。这些输出向量包含了输入序列中所有 Token 的信息，是深度语境化的表示。

堆叠的 Block：每一层 Block 都处理前一层 Block 的输出，逐层提取更高级别的特征和语义信息。图中的虚线和“Block”之间的点表示可能有多层 Block。
在这里插入图片描述
Encoder 的右侧部分详细展示了一个“Block”的内部构成。每个 Block 都包含两个主要的子层:

自注意力机制层
前馈神经网络层

在这两个子层之间和之后，都使用了两个重要的技巧：残差连接和层归一化。

残差连接有助于缓解深度神经网络中的梯度消失问题，使得信息可以直接通过多层传递，有助于训练更深的模型。形式上，如果一个子层的函数是 Sublayer(x)，那么残差连接的输出是 x+Sublayer(x)。

层归一化则对每个样本的每个特征维度进行归一化，使得神经网络的训练过程更加稳定和高效。它有助于避免内部协变量偏移，并允许使用更高的学习率。
在这里插入图片描述

在encoder中，如果对原句有padding，将padding的部分加上-10^5，这样子使其softmax之后=0。

在这里插入图片描述
Decoder 的核心任务是根据 Encoder 编码后的上下文信息，生成目标序列。在图中，输入是英文单词 “Machine Learning”，Encoder 将其编码成一个或一组上下文向量（图中Encoder右上角的虚线框）。Decoder 则利用这些上下文向量以及它自己之前生成的词语，逐步生成中文序列 “机器学习”。

Decoder 是 Autoregressive自回归的。这是 Decoder 的一个非常重要的特性，意味着：

逐步生成： Decoder 是一个逐个生成输出序列元素的模型。
依赖先前的输出：在生成当前词时，它会利用之前已经生成的词作为输入。

Encoder（左侧蓝色方框）接收输入序列 “Machine Learning”，并将其转换为一系列上下文表示（图中虚线框中的橙色和红色方块，可以是一个上下文向量，也可以是Transformer Encoder中最后一层的所有输出向量）。这些表示包含了输入序列的所有必要信息。

Decoder 的初始输入：Decoder 的第一个输入通常是一个特殊的 START 标记（图中绿色的输入框），这告诉Decoder 开始生成序列。同时，Decoder 会接收来自 Encoder 的上下文信息。之后Decoder 结合 START 标记和 Encoder 的上下文信息，预测输出序列的第一个词。接下来，Decoder 将已经生成的第一个词 “机” 作为它的下一个输入（图中紫色的输入框）。
结合 Encoder 的上下文信息和新的输入 “机”，Decoder 预测出第二个词 “器”。依此类推：这个过程会重复进行。每生成一个词，就将其作为下一个时间步的输入，直到生成一个特殊的 END 标记，或者达到最大序列长度。
在这里插入图片描述
如上图所示：在标准的自注意力机制中（如 Encoder 中使用的），序列中的每个位置都可以“看到”并关注序列中的所有其他位置（包括它自身以及它之后的未来位置）。

然而，在 Decoder 的生成过程中，我们通常是逐个生成输出序列的词语。这意味着当 Decoder 在生成当前位置的词语时，它不应该能够“看到”或利用未来的词语信息，否则就相当于作弊了（模型已经知道答案了）。

Masked Self-Attention 的目的就是强制 Decoder 在生成当前位置的输出时，只能关注当前位置以及之前已经生成过的位置，而不能关注未来的位置。
在这里插入图片描述
另外在Transformer的Decoder中，还引入了Cross-attention机制，与自注意力机制（Q, K, V 都来自同一个序列）不同，交叉注意力机制的 Q、K、V 来自不同的源：