统一NLP和目标检测的DETR（一）——self attention、encoder、decoder

统一NLP和目标检测的DETR（一）——self attention、encoder、decoder

news2025/10/31 16:01:50

主流目标检测算法劣势

YOLO系列，它基于anchor来做，少不了要用MNS，导致速度相对较慢。
但今天介绍一款DETR，基于VIT的目标检测算法。
那么我们需要先深入过一遍VIT。

Vision transform

1、传统RNN网络的问题

单向：只考虑之前的输入
双向：过去和未来的信息都可以参考，但是比如x1默认影响最大的是X0和X2。但是对X1影响最大的也可能是过去未来某个细节，比如X100,X1000等等。

2、vit在做什么事情——Encoder

1、把①号不好的特征转变为②号好的特征。这种楞次分明的特征可以让模型学习的更好。
在这里插入图片描述 2、传统词向量Word2vec的问题：同样的词在不同语境中保持不变。
3、transform会结合上下文考虑词语的信息，会一直更新词向量。
4、注意力机制attention，self-attention。it在不同语境中代表不同事物。

it是什么意思，需要结合上下文，而每个上下文词汇都会提供一个贡献值，0-1之间，表示他与it的联系。那么贡献值是怎么计算的呢？
在这里插入图片描述
词语向量的内机为0代表完全不关，内机为1表示“兄弟”。
那么可以把这个词向量X1分解为：Q、K、V。
Q:抛出一个问题
K:别人会问你，你答应别人的时候要给别人看的东西，
V:表示自身

当X1和自己计算：Q1K1
当X1和X2计算时候：Q1K2

那么我们如何产生QKV呢？并且是的他们是可以训练的。也就是QKV不是凭空产生的，而是训练得到的。它与X1,X2有联系。

V在做什么呢？
通过学习，更好的理解自己。V表示实际的特征信息。
在这里插入图片描述
词的顺序会不会导致特征发生变化？
比如“我打你”和“你打我”当中的“我”是否是同一个特征。那么我们知道“我”的特征是Q/K/V，那么这个QKV是不变的。三个字关系不变，因此特征。但你打我和我打你并不是一回事！！

因此产生了位置信息表达，位置编码，在向量的维度上加一个维度信息。
在这里插入图片描述
最后如何做到自注意力

多次堆叠self-attention，使得输出特征提取更为完善。
4,6,8,10层数，Chatgpt特别多层。

3、vit在做什么事情——Decoder

1、本质：多分类任务。
2、如何decoder：由decoder的特征出Q询问，encoder提取的特征提供应答向量K和本身特征V。
3、Q1和Qn之间测关系是无法见到的，因为decoder不可以以未来信息为依据，不然就是不符合实际情况了——mask机制
在这里插入图片描述
MLP输出层

VIT整体结构

：FFN其实就是一个MLP
在这里插入图片描述

词（input）->词向量（input embedding）->Positional Encoding（位置编码）。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2100814.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

vue3集成sql语句编辑器

vue3集成sql语句编辑器

使用的是codemirror 安装 pnpm add codemirror vue-codemirror --savepnpm add codemirror/lang-sqlpnpm add codemirror/theme-one-dark使用 <template><codemirror v-model"configSql" placeholder"Code goes here..." ref"codemirrorR…

阅读更多...

热力图科普：数据可视化的利器

热力图科普：数据可视化的利器

hello大家好，俺是没事爱瞎捣鼓又分享欲爆棚的叶同学！！！ 日常闲扯哎呀，第一天上完课，给俺的感觉是（热和惊喜），热是真热，从出租屋走到教学楼给我整的汗流浃背…

阅读更多...

十七、网络编程

十七、网络编程

文章目录一、网络相关的概念二、InetAddresss类三、Socket3.1 基本介绍四、TCP网络通信编程4.1 应用案例1(使用字节流)4.2 应用案例2(使用字节流)4.3 应用案例3(使用字符流)4.4 应用案例4（TCPFileCopy）4.5 netstat 指令4.6 TCP网络通讯不为人知的秘密 …

阅读更多...

为啥一定要考HCIE安全？这4个理由你不得不看

为啥一定要考HCIE安全？这4个理由你不得不看

大家都知道，网络安全越来越成为企业和个人关注的焦点。随着网络攻击的日益复杂和频繁，对于具备高级网络安全技能的专业人才的需求也在不断增长。HCIE-Security认证，作为华为推出的顶级信息安全认证，正是满足这一需求的黄金标准。…

阅读更多...

inflight 守恒化简

inflight 守恒化简

设 x 为 E bw / delay 效能，y 为 flow 在瓶颈处的实际分配带宽，r 为时延，inflt 守恒模型的方程组如下： I ( t ) ∑ i 0 n w i ( t ) I(t)\displaystyle\sum_{i0}^n w_i(t) I(t)i0∑nwi(t) d x d t y r − x \dfrac{dx}{dt…

阅读更多...

论文速读|自然语言的最优控制合成：机遇与挑战

论文速读|自然语言的最优控制合成：机遇与挑战

项目地址：Optimal Control Synthesis from Natural Language: Opportunities and Challenges 介绍了一种从自然语言自动生成最优控制器的框架，该框架主要包括以下几个步骤：首先，通过人类用户提供的初始文本和系统描述，…

阅读更多...

苹果系统中如何安装Python和PyCharm

苹果系统中如何安装Python和PyCharm

1、Python官网下载安装包 Python官网下载苹果版本的安装包。 2、PyCharm官网下载安装包 3、下载完毕后安装Python 我采用的是在Windows下下载安装包，然后移动硬盘挂接到MacOS的方式进行安装。双击开始安装Python Python安装完毕 4、Python安装完毕后的测定注意直…

阅读更多...

【开源免费】基于SpringBoot+Vue.JS高校校园招聘服务系统（JAVA毕业设计）

【开源免费】基于SpringBoot+Vue.JS高校校园招聘服务系统（JAVA毕业设计）

本文项目编号 T 010 ，文末自助获取源码 \color{red}{T010，文末自助获取源码} T010，文末自助获取源码目录一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析六、核心代码6.1 查…

阅读更多...

Qt QPushButton 按钮添加数字气泡

Qt QPushButton 按钮添加数字气泡

使用场景项目中，在某个按钮的右上角添加数字气泡是一个很常见的功能，可以用新建一个组合类来实现。不过这样比较麻烦，如果加气泡是后面的需求，可能改动的地方较多。下面介绍2种比较简单，不需要改动按钮响应的方式。…

阅读更多...

Web3社交新经济，与 SOEX 实现无缝交易的高级安全性

Web3社交新经济，与 SOEX 实现无缝交易的高级安全性

出于充分的理由，安全性是交易中至关重要的考虑因素。每个人都应该确保自己的资金在交易时是安全的。由于　ＳＯＥＸ　充当您与交易所的最佳连接，因此必须强调的是，该系统不会引发任何安全问题。 &a…

阅读更多...

央视曝光“硫超标”枸杞，记者直击加工现场：被熏到泪流不止

央视曝光“硫超标”枸杞，记者直击加工现场：被熏到泪流不止

枸杞，这一自古以来便被誉为“药食同源”的珍贵食材，不仅承载着中华民族深厚的养生智慧，也广泛融入现代人的日常饮食与保健之中。从食品、饮料到保健品，枸杞的身影无处不在，其独特的营养价值与药用价值深受消费者青睐。…

阅读更多...

心电调试笔记

心电调试笔记

原理图设计注意事项引脚连接检查：确保每个元器件与芯片引脚连接正确是基础，错误的连接可能导致系统无法正常工作。未连接引脚标识：对于未使用的引脚，虽然不连接但应标识为非使用状态，以免混淆或引起误操作。测试点设…

阅读更多...

【 html+css 绚丽Loading 】 000034 三元聚散盘

【 html+css 绚丽Loading 】 000034 三元聚散盘

前言：哈喽，大家好，今天给大家分享htmlcss 绚丽Loading！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏关注哦 &#x1f495…

阅读更多...

解锁MySQL数据库基础命令：从入门到精通的实战指南

解锁MySQL数据库基础命令：从入门到精通的实战指南

作者简介：我是团团儿，是一名专注于云计算领域的专业创作者，感谢大家的关注座右铭： 云端筑梦，数据为翼，探索无限可能，引领云计算新纪元个人主页：团儿.-CSDN博客前言：…

阅读更多...

PLUTO: 推动基于模仿学习的自动驾驶规划的极限

PLUTO: 推动基于模仿学习的自动驾驶规划的极限

PLUTO: Pushing the Limit of Imitation Learning-based Planning for Autonomous Driving PLUTO: 推动基于模仿学习的自动驾驶规划的极限 https://arxiv.org/abs/2404.14327 Abstract We present PLUTO, a powerful framework that Pushes the Limit of imitation learn…

阅读更多...

【扇贝编程】python爬虫——爬取动态网页笔记

【扇贝编程】python爬虫——爬取动态网页笔记

在示例网站上登陆后点开第一条请求（wp-login.php）。右边的 Headers 里可以看到请求地址（Request URL）为 https://wpblog.x0y1.com/wp-login.php，请求方式（Request Method）是 POST，状…

阅读更多...

戴尔科技领涨市场，AI服务器需求成关键驱动力

戴尔科技领涨市场，AI服务器需求成关键驱动力

戴尔科技强劲上涨，AI服务器需求激增戴尔科技公司日内股价飙升4.2%，达到115.42美元，接近一个月高点。这一强劲表现主要得益于该公司上调了年度盈利预期，原因是对Nvidia驱动的人工智能优化服务器的需求显著增加。戴尔将2025财年的年…

阅读更多...

RTC（实时时钟）/BKP(备份寄存器

RTC（实时时钟）/BKP(备份寄存器

1 unix时间戳 2 时间戳转换函数 3 BKP（备份寄存器） 1 TAMPER引脚侵入事件 2 RTC校准时间 3 RST闹钟脉冲和秒脉冲可以输出出来为其他信号提供 4 校准时钟，寄存器加输出RTC校准时钟 5 总结：3个功能只能同时使用一个 4 BKP基本…

阅读更多...

windows屏幕录制：探索四款顶级录屏工具！

windows屏幕录制：探索四款顶级录屏工具！

在数字化时代，我们经常需要记录屏幕上的操作，无论是为了教学、演示还是娱乐。Windows操作系统提供了多种录屏工具，这些工具各有特色，能够满足不同用户的需求。本文将为您介绍几款备受好评的录屏软件！ 福昕录屏大师直…

阅读更多...

【RabbitMQ】核心概念

【RabbitMQ】核心概念

界⾯上的导航栏共分6部分, 这6部分分别是什么意思呢, 我们先看看RabbitMQ的工作流程 1. Producer和Consumer Producer:生产者,是RabbitMQ Server的客户端,向RabbitMQ发送消息 Consumer: 消费者,也是RabbitMQ Server的客户端,从RabbitMQ接收消息 Broker:其实就是RabbitMQSer…

阅读更多...

推荐文章

最新文章