Transformer 结构浅析

news2025/5/25 5:25:15

Transformer 结构浅析

文章目录

  • Transformer 结构浅析
    • Transformer 网络结构
    • 编码器
      • 位置编码
      • 多头注意力层
      • Add&Norm
      • Feed Forward
    • 解码器
      • 带掩码的多头注意力层
      • 多头注意力层
    • 预测

Transformer 网络结构

ModalNet-21

Transformer模型的网络结构如图,且transformer结构主要分为两部分,其中一部分为encode编码器,一部分为decode解码器。且Encoder 和 Decoder 都包含 6 个 block。

编码器

位置编码

第一步将sentence输入网络,并进行词编码,并与位置编码相加得到输入编码器的block。

其中transformer中的位置编码采用如下公式进行计算
P E ( p o s , 2 i ) = sin ⁡ ( p o s / 1000 0 2 i / d ) P E ( p o s , 2 i + 1 ) = cos ⁡ ( p o s / 1000 0 2 i / d ) \begin{aligned} PE_{(pos,2i)}&=\sin{(pos/10000^{2i/d})}\\ PE_{(pos,2i+1)}&=\cos{(pos/10000^{2i/d})} \end{aligned} PE(pos,2i)PE(pos,2i+1)=sin(pos/100002i/d)=cos(pos/100002i/d)
其中, p o s pos pos 表示单词在句子中的位置, d d d 表示 PE的维度 (与词 Embedding 一样), 2 i 2i 2i 表示偶数的维度, 2 i + 1 2i+1 2i+1 表示奇数维度 (即 2 i ≤ d , 2 i + 1 ≤ d 2i≤d, 2i+1≤d 2id,2i+1d)。使用这种公式计算 PE 有以下的好处:

  • 使 PE 能够适应比训练集里面所有句子更长的句子,假设训练集里面最长的句子是有 20 个单词,突然来了一个长度为 21 的句子,则使用公式计算的方法可以计算出第 21 位的 Embedding。

  • 可以让模型容易地计算出相对位置,对于固定长度的间距 k k k,PE(pos+k) 可以用 PE(pos)计算得到。

    因为 :
    sin ⁡ ( A + B ) = sin ⁡ ( A ) cos ⁡ ( B ) + cos ⁡ ( A ) sin ⁡ ( B ) cos ⁡ ( A + B ) = cos ⁡ ( A ) cos ⁡ ( B ) − sin ⁡ ( A ) sin ⁡ ( B ) \sin(A+B) = \sin(A)\cos(B) + \cos(A)\sin(B) \\ \cos(A+B) = \cos(A)\cos(B) - \sin(A)\sin(B) sin(A+B)=sin(A)cos(B)+cos(A)sin(B)cos(A+B)=cos(A)cos(B)sin(A)sin(B)

X X X为输入的sentence词编码与位置编码相加的结果

多头注意力层

然后将 X X X​输入多头注意力中,其中自注意力机制如下图所示

ModalNet-19

首先将 X X X映射到 Q , K Q,K Q,K空间中,然后根据缩放点积进行打分,最后使用softmax的到概率,最后与value相乘的到输出结果

其中多头注意力的结构如图所示

ModalNet-32

其本质是采用多个 V , K , Q V,K,Q V,K,Q矩阵计算自注意力并进行拼接。

Add&Norm

然后将多头注意力的结果输入到Add&Norm层中,其中这部分采用残差连接的方式构成。
LayerNorm ⁡ ( X + MultiHeadAttention ⁡ ( X ) ) LayerNorm ⁡ ( X + FeedForward ⁡ ( X ) ) \begin{aligned} &\operatorname{LayerNorm}\left(X+\operatorname{MultiHeadAttention}(X)\right)\\ &\operatorname{LayerNorm}( X+ \operatorname{FeedForward}( X) ) \end{aligned} LayerNorm(X+MultiHeadAttention(X))LayerNorm(X+FeedForward(X))
并将输出结果输入Feed Forward中

Feed Forward

其中Feed Forward的结构如图所示

ModalNet-23

其数学表达为
max ⁡ ( 0 , X W 1 + b 1 ) W 2 + b 2 \max(0,XW_1+b_1)W_2+b_2 max(0,XW1+b1)W2+b2
然后在将输出结果经过Add&Norm层输入到解码器中

解码器

带掩码的多头注意力层

因为在序列任务中,往往是从前往后开始进行的,为了防止提前知道以后的信息,所以使用了带掩码的多头注意力机制

根据下图可知

ModalNet-19

计算完缩放点积后与掩码矩阵相乘,在计算softmax并与v相乘。然后将结果输入到Add&Norm层中。

多头注意力层

接受来自上一层Add&Norm的输入并计算Q矩阵然后根据 Encoder 的输出计算得到 K, V,后续的计算与之前的一致。

预测

将解码器的输出输入到线性层,并使用softmax输出得到概率

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1593338.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

编曲知识18:EQ均衡器 齿音处理 呼吸音处理 口水音处理

EQ均衡器 齿音处理 呼吸音处理 口水音处理小鹅通-专注内容付费的技术服务商https://app8epdhy0u9502.pc.xiaoe-tech.com/live_pc/l_66151c90e4b092c1187ac699?course_id=course_2XLKtQnQx9GrQHac7OPmHD9tqbv 均衡器 均衡器 Equalizer(简称EQ) 人耳接受频率:20hz—20khz …

python基础——类型注解【变量,函数,Union】

📝前言: 上一篇文章Python基础——面相对象的三大特征提到,python中的多态,python中,类型是动态的,这意味着我们不需要在声明变量时指定其类型。然而,这可能导致运行时错误,因为我们…

【每日一算】冒泡算法

冒泡算法就是给数据排序的意思。比如说升序,17,8,9,28,5.升序之后的结果就是5,8,9,17,28. 从我们的大脑思维来看,结果一眼就有了,可是机器要怎么才…

论文阅读:Polyp-PVT: Polyp Segmentation with PyramidVision Transformers

这篇论文提出了一种名为Polyp-PVT的新型息肉分割框架,该框架采用金字塔视觉变换器(Pyramid Vision Transformer, PVT)作为编码器,以显式提取更强大的特征。本模型中使用到的关键技术有三个:渐进式特征融合、通道和空间…

Linux 【进程】

什么是进程 Linux中的进程是指正在运行的程序实例。每个进程都是操作系统内部管理的独立实体,具有自己的地址空间、代码、数据和打开的文件等资源。进程是并发执行的基本单位,可以同时运行多个进程。 Linux中的进程通过创建父子关系形成一个进程树。当一…

软件测试20个基础面试题及答案

什么是软件测试? 答案:软件测试是指在预定的环境中运行程序,为了发现软件存在的错误、缺陷以及其他不符合要求的行为的过程。 软件测试的目的是什么? 答案:软件测试的主要目的是保证软件的质量,并尽可能…

Docker入门实战教程

文章目录 Docker引擎的安装Docker比vm虚拟机快 Docker常用命令帮助启动类命令镜像命令docker imagesdocker searchdocker pulldocker system dfdocker rmi 容器命令redis前台交互式启动redis后台守护式启动Nginx容器运行ubuntu交互式运行tomcat交互式运行对外暴露访问端口 Dock…

头歌-机器学习实验 第8次实验 决策树

第1关:什么是决策树 任务描述 本关任务:根据本节课所学知识完成本关所设置的选择题。 相关知识 为了完成本关任务,你需要掌握决策树的相关基础知识。 引例 在炎热的夏天,没有什么比冰镇后的西瓜更能令人感到心旷神怡的了。现…

【深度学习实战(1)】如何使用argparse模块设置自己的训练参数

一、argparse模块用法 1、argparse是一个python模块,用途是:命令行选项、参数和子命令的解释。 2、argparse库下载:pip install argparse 3、使用步骤: 导入argparse模块,并创建解释器 添加所需参数 解析参数 二、…

Linux vi/vim说明用法

Linux vi/vim 所有的 Unix Like 系统都会内建 vi 文书编辑器,其他的文书编辑器则不一定会存在。 但是目前我们使用比较多的是 vim 编辑器。 vim 具有程序编辑的能力,可以主动的以字体颜色辨别语法的正确性,方便程序设计。 以下是使用 vi 或 v…

linux线程 -- 线程池

一 什么是线程池 1.1 线程池的概念 所谓的 线程池 就是 提前创建一批线程,当任务来临时,线程直接从任务队列中获取任务执行,可以提高整体效率;同时一批线程会被合理维护,避免调度时造成额外开销。 1.2 池化技术 像这种…

蓝桥杯真题演练:2023B组c/c++

日期统计 小蓝现在有一个长度为 100 的数组,数组中的每个元素的值都在 0 到 9 的范围之内。 数组中的元素从左至右如下所示: 5 6 8 6 9 1 6 1 2 4 9 1 9 8 2 3 6 4 7 7 5 9 5 0 3 8 7 5 8 1 5 8 6 1 8 3 0 3 7 9 2 7 0 5 8 8 5 7 0 9 9 1 9 4 4 6 8 6 3 …

全球AI顶会NeurlPS开始收高中生论文了

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/ 更多资源欢迎关注 卷高考之后的下一步,卷论文? 培养 AI 人才,要从娃娃抓起&…

《由浅入深学习SAP财务》:第2章 总账模块 - 2.6 定期处理 - 2.6.4 月末操作:货币折算

2.6.4 月末操作:货币折算 如果一个公司代码启用了多个本位币,如下表所示,则在平时记账时,系统会在凭证行项目中同时体现出多个本位币的金额。 图2.6.4-1 两个本位币的金额都会实时更新到科目余额中。因此,在月末可以直…

达梦数据库导入导出工具dmfldr

达梦数据库导入导出工具dmfldr 基础信息 OS版本: Red Hat Enterprise Linux Server release 7.9 (Maipo) DB版本: DM Database Server 64 V8 DB Version: 0x7000c 03134284132-20240115-215128-200811 dmfldr工具介绍 dmfldr(DM Fast Loade…

matlab使用教程(43)—二维曲线图绘制的基本方法

这个博客创建一个简单的曲线图并修改横纵坐标。通过更改线条颜色、线型和添加标记来自定义线图的外观。 1.创建曲线图 使用 plot 函数创建二维曲线图。例如,绘制从 0 到 2 π 之间的正弦函数值,并修改横纵坐标,添加图形标题。 x linspace…

我与C++的爱恋:类与对象(二)

​ ​ 🔥个人主页:guoguoqiang. 🔥专栏:我与C的爱恋 ​ 本篇着重介绍构造函数和析构函数,剩余内容在下篇解答。 一、类的默认成员函数 如果一个类中什么成员都没有,简称为空类。 任何类在什么都不写时…

[全网最全]2024MathorCup妈妈杯C题成品论文33页+配套完整代码数据汇总

2024年第十四届MathorCup数学应用挑战赛C题的每一小问提出具体的解答步骤和思路: (完整版放在文末了)成品论文33页 第一小问:货量预测 解答步骤和思路: 数据整理:首先,需要整理和清洗提供的数…

苍穹外卖学习记录(一)

1.JWT令牌认证 JSON Web Token (JWT)是一个开放标准(RFC 7519),它定义了一种紧凑的、自包含的方式,用于作为JSON对象在各方之间安全地传输信息。该信息可以被验证和信任,因为它是数字签名的。 JWT是目前最常用的一种令牌规范,它最…

LLM-大模型演化分支树、GPT派发展阶段及训练流程图、Infini-Transformer说明

大模型是怎么演进的? Encoder Only: 对应粉色分支,即BERT派,典型模型: BERT 自编码模型(Autoencoder Model):通过重建句子来进行预训练,通常用于理解任务,如文本分类和阅…