机器学习：self-attention

机器学习：self-attention

news2026/3/7 11:57:16

输入

在这里插入图片描述

编码方式：

one-hot:
word-embedding:能更明显的区分不同类别的输入

图也能看作是多个向量输入

输出

每个向量都有一个label

在这里插入图片描述

一整个sequence有一个label
模型自己决定有多少个label（sequence to sequence）

重点介绍每个vector有一个label

在这里插入图片描述

saw词性第一个和第二个不同，但是网络无法识别
通过联系上下文解决

self-attention不只是只能做一次，能做很多次
文章： attention is all you need - transformer

在这里插入图片描述

第一步：找到与a1相关的向量， a表示两个向量的关联程度
计算a：
- dot-product
- additive
  
  自己跟自己也要计算关联度：
再计算softmax，得到每个的重要分数
最后每个向量生成一个v，每个向量对应的权重与另外的向量v相乘累加作为最终那个向量的输出

用矩阵的形式表示：

q与k计算attention分数，可以用矩阵与向量相乘表示：

多个向量的话组成一个矩阵，可以看作是矩阵和矩阵相乘：

$A = K^T * Q$
$A^{'} = so f t ma x (A)$

在这里插入图片描述
输出 $O = V * A^{'}$

总的过程如下：

唯一要学习的参数就是 $W^q$ , $W^k$ , $W^v$

不同的变体

multi-head self-attention

在这里插入图片描述

注意到self-attention 没有位置信息。
可以加入position编码信息（手工，或者学习得到）

在这里插入图片描述

应用

语音

由于语音数据非常大，可以采用truncated方式只看很小的一个范围，一定范围之内的数据就能完成
图像

整张图片5103，每个位置的pixel看作是一个三维向量，每张图看做是一个5*10的向量

在这里插入图片描述

rnn如果需要记得之前的信息的话需要一直保存到memory
rnn不能并行
图

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/349581.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Qt编写视频监控系统71-外网访问摄像头等设备（获取各种信息及拉流）

Qt编写视频监控系统71-外网访问摄像头等设备（获取各种信息及拉流）

一、前言最近遇到个需求是通过外网接入摄像机或者NVR，通用的做法是将视频流推流到服务器，然后拉取rtmp视频流，这样就多了服务器的要求，而且实现的功能有限比如不能直接用onvif协议对设备获取信息和配置信息，还有个做…

阅读更多...

Guitar Pro8.0吉他打谱作曲中文版有哪些新功能?

Guitar Pro8.0吉他打谱作曲中文版有哪些新功能?

很多人在听到Guitar Pro这个名词时，本能反应就是跟吉他有关的软件吧，但是具体是什么样子，有什么功能我们却不一定知道的那么详细，下面呢，我们就来详细的介绍下Guitar Pro这款软件。最后，Guitar Pro绝对是初…

阅读更多...

【JAVA八股文】并发相关

【JAVA八股文】并发相关

并发相关1. 线程状态2. 线程池3. wait vs sleep4. lock vs synchronized5. volatile6. 悲观锁 vs 乐观锁7. Hashtable vs ConcurrentHashMap8. ThreadLocal1. 线程状态六种状态及转换分别是新建当一个线程对象被创建，但还未调用 start 方法时处于新建状态此时…

阅读更多...

$20- Xgboost 算法参数最优化 (集成算法) (算法)$

20- Xgboost 算法参数最优化 (集成算法) (算法)

Xgboost 方式一 from xgboost import XGBClassifier model XGBClassifier(learning_rate 0.1, # 学习率，控制每次迭代更新权重时的步长，默认0.3。值越小，训练越慢use_label_encoderFalse,n_estimators10, # 总共迭代的次数，即…

阅读更多...

英特尔研究院探索负责任的生成式AI，让AI应用真正惠及大众

英特尔研究院探索负责任的生成式AI，让AI应用真正惠及大众

ChatGPT的爆火让AI再次成为大众热议的焦点，作为英特尔所提出的搭建起从模拟时代到数字时代桥梁的五大“超级技术力量”之一，伴随着无处不在的智能化，AI可将无穷的数据转化为切实可行的洞察。作为半导体行业的领先企业，在这一前沿技…

阅读更多...

Windows系统从权限维持角度进行应急响应

Windows系统从权限维持角度进行应急响应

一、基本介绍红队攻击者在对目标进行渗透利用后通常都会进行权限维持，以达到持续利用的目的。而作为防守方进行应急响应时，应该如何与技术高超（jiaohuajianzha）的攻击者斗智斗勇呢？或许可以通过本文可以找到答案。以…

阅读更多...

企业小程序开发步骤【教你创建小程序】

企业小程序开发步骤【教你创建小程序】

随着移动互联网的兴起，微信已经成为了很多企业和商家必备的平台，而其中，微信小程序是一个非常重要的工具。本文将为大家介绍小程序开发步骤，教你创建小程序。步骤一、注册小程序账号先准备一个小程序账号，在微信公…

阅读更多...

ROS从入门到精通5-5：局部路径规划插件开发案例(以DWA算法为例)

ROS从入门到精通5-5：局部路径规划插件开发案例(以DWA算法为例)

目录0 专栏介绍1 局部规划插件制作框架2 DWA算法源码分析2.1 全局路径裁剪2.2 更新局部代价2.3 运行DWA算法2.3.1 构造动态窗口2.3.2 生成最优轨迹2.4 终点规划3 算法测试0 专栏介绍本专栏旨在通过对ROS的系统学习，掌握ROS底层基本分布式原理，并具有机…

阅读更多...

区块链知识系列 - 系统学习EVM(四)-zkEVM

区块链知识系列 - 系统学习EVM(四)-zkEVM

区块链知识系列 - 系统学习EVM(一) 区块链知识系列 - 系统学习EVM(二) 区块链知识系列 - 系统学习EVM(三) 今天我们来聊聊 zkEVM、EVM 兼容性和 Rollup 是什么？ 1. 什么是 Rollup rollup顾名思义，就是把一堆交易卷（rollup）起来…

阅读更多...

oracle官方下载历史版本JDK版本

oracle官方下载历史版本JDK版本

背景日常工作中由于一些特殊原因，我们需要下载指定系统指定位数指定版本的jdk，这个时候去网上搜索下载就会遇到各种坑，病毒、诱导连接、诱导关注/注册、付费、错误版本等，所以最好的办法是去官网下载，下面列举两种方式…

阅读更多...

Allegro中如何删除多余D码操作指导

Allegro中如何删除多余D码操作指导

Allegro中如何删除多余D码操作指导用Allegro做PCB设计的时候，在最后输出生产文件的时候，必须清除多余的D码，不让多余的D码出现在D码文件中，类似下图如何清除多余D码，具体操作如下点击Tools点击Padstack

阅读更多...

WIN11/win10+Azure Kinect DK详细驱动配置教程（亲测）

WIN11/win10+Azure Kinect DK详细驱动配置教程（亲测）

本人3000多大洋买了一台 Azure Kinect DK设备，打算研究研究人体姿态。今天配置一下，网上的教程不少，有的过期教程，有的和我的不匹配，所以,只能参考他们的，取其精华去其糟粕。下面开始，这里先…

阅读更多...

C#.Net正则表达式学习笔记

C#.Net正则表达式学习笔记

C#.Net正则表达式学习笔记在处理字符串时，你会经常有查找符合特定条件的字符串的需求，比如判断一串电话号码是否符合格式、一个邮箱是否符合格式、一个密码是否包含了字母大小写等等。正则表达式(Regular expressions)用于匹配文本，使用一…

阅读更多...

[2023]自动化测试框架完整指南

[2023]自动化测试框架完整指南

所有软件在提供给用户之前都必须经过测试。软件测试是开发生命周期中必不可少的一步因为它确保用户必须收到符合其开发目的的高质量产品。每个企业都优先考虑测试;因此，大多数人更愿意从手动测试转向自动化。因此，自动化测试框架是任何软件测试过程的基础…

阅读更多...

redis 分布式缓存、主从集群

redis 分布式缓存、主从集群

目录分布式缓存1.Redis持久化1.1.RDB持久化RDB原理1.2.AOF持久化1.3.RDB与AOF对比2.Redis主从2.1.搭建主从架构2.2.主从数据同步原理2.2.1.全量同步2.2.2.增量同步2.2.3.repl_backlog原理2.3.主从同步优化方式2.4.全量同步和增量同步区别3. Redis哨兵3.1 集群监控原理3.2 集群故…

阅读更多...

powerjob的worker启动，研究完了这块代码之后我发现了，代码就是现实中我们码农的真实写照

powerjob的worker启动，研究完了这块代码之后我发现了，代码就是现实中我们码农的真实写照

这是一篇让你受益匪浅的文章，代码即使人生。 worker启动比server启动要复杂一些，毕竟worker是要实际干活的，工欲善其事必先利其器，所以需要准备的工具还是不能少的，server对于powerjob来说，只是一个调度用的…

阅读更多...

JVM详解

JVM详解

一，JVM 1，JVM区域划分类装载器，运行时数据区，字节码执行引擎 2，JVM内存模型（运行时数据区） 由本地方法栈，虚拟机栈，堆，方法区，和程序计数器组成。…

阅读更多...

C++类基础（十五）

C++类基础（十五）

类的继承——虚函数（二） ● 由虚函数所引入的动态绑定属于运行期行为，与编译期行为有所区别虚函数与继承紧密相关 – 虚函数的缺省实参只会考虑静态类型 struct Base {virtual void fun(int x 3){std::cout << "virtual void f…

阅读更多...

国产技术迎来突破，14nm芯片横空出世，低代码也有好消息

国产技术迎来突破，14nm芯片横空出世，低代码也有好消息

芯片，被称为工业时代的“粮食”，小到手机手环，大到飞机轮船，几乎各个行业都不离开芯片的支持，其重要性不言而喻。而我国在这一领域一直较为薄弱。一、“芯片之路坎坷” 由于国内半导体芯片市场底子薄弱、没有主动权…

阅读更多...

NetApp AFF A 系列全闪存存储阵列

NetApp AFF A 系列全闪存存储阵列

NetApp AFF A 系列全闪存阵列是一款智能、至强、至信的解决方案，它可利用现代云技术为您的 Data Fabric 提供所需的速度、效率和安全性。是时候实现数据现代化了进行任何 IT 转型的基础性第一步是利用高性能全闪存存储打造现代化基础架构，提高关键业务…

阅读更多...

推荐文章

最新文章