【CVPR 2022】QueryDet:加速高分辨率小目标检测

news2025/8/7 3:43:39

大连不负众望,疫情了,我们又封校了,可能初步封个5678天,微笑jpg

论文地址:https://arxiv.org/pdf/2103.09136.pdf
项目地址:https://github.com/ ChenhongyiYang/QueryDet-PyTorch

1. 简介

背景:对小目标检测的性能和效果不满意

解决办法:先用低分辨率的图片预测到小目标的粗定位;用这些粗位置稀疏引导的高分辨率特征计算出准确的预测结果。

小目标检测中出现性能衰减原因:

(1)由于下采样操作导致引导小目标的特征消失,或被background中的噪声污染。

(2)低分辨率特征对应的感受野无法与小目标的尺度相匹配。

(3)小目标较小的偏差就会导致IoU上较大的扰动,导致小目标检测先天难于大目标。

现有的小目标检测方法通常通过放大输入图像尺寸或减少降采样率来维持较大分辨率的特征,进而提升小目标检测的性能。引入FPN可以在一定程度上缓解高分辨率引入大量计算的问题,但其在low-level特征上检测的计算复杂度仍很高。

本文提出基础:

(1)高分辨率、低层特征层(Low-level feature map)中的特征计算是高度冗余的,小目标的空间分布稀疏,只在特征图中占一小部分。
(2)FPN结构中,即使低分辨率(high-level)的特征层无法精确的检测出小目标,但也能以较高的置信度来粗略判断出小目标是否存在以及对应的区域。特征金字塔的采样特性类似卷积神经网络的卷积特性(平移、缩放、扭曲不变性),可以依据其下采样、上采样的特点进行特征推断。

题外话: 我发现,在Abstract里加一张图可以非常清晰的提出问题,很不错,写论文的时候可以借鉴一下。

2. 干了啥

本文目标:是在引入更浅层高分辨率的特征助力小目标检测的同时,保证计算的轻量化。

基于前面的发现,QueryDet提出了级联稀疏查询(Cascade Sparse Query)机制。其中Query代表使用前一层(higher-level feature with lower resolution)中传递过来的query来指导本层的小目标检测,再预测出本层的query进一步传递给下一层,对下一层的小目标检测进行指导的过程;Cascade表示了这种级联的思想;Sparse表示通过使用稀疏卷积(sparse convolution)来显著减少低层特征层上检测头的计算开销。

说白了,前一层的特征图具有高层特征和低分辨率,负责对小目标的初筛;这种查询传导到具有高分辨率信息的低层后再进行精找,这种“glance and focus”的two-stage结构可以有效的进行动态推理,检测出最终结果。

通过稀疏查询加速推理:

在以往基于特征金字塔的检测器的设计中,小目标倾向于从高分辨率低级特征图中检测到。 然而,由于小目标通常在空间中分布稀疏,高分辨率特征图上的密集计算范式效率非常低。 受此观察的启发,作者提出了一种从粗到细的方法来降低低级金字塔的计算成本:首先,在粗略特征图上预测小目标的粗略位置,然后集中计算精细特征图上的相应位置。这个过程可以看作是一个查询过程:粗略的位置是查询键,用于检测小目标的高分辨率特征是查询值,整个流程如下图所示。

对于简介中的图而言,里面包含了两个级联的查询操作,即:Large->Medium和Medium->Small,以Large->Medium为例,首先,网络会在Large层次的图像中对小目标进行标记(将规模小于预设阈值s的对象定义为小目标),Large层次的网络在预测过程中会对小目标的置信度进行预测,得到包含小目标的网格信息;其次,在推理过程中,网络选择预测分数大于阈值s的位置作为query,并将这个位置映射到Medium的特征图中,最后,Medium上对应的三个head只会在key位置集中对应的位置上计算head和用于下一层的queries,这个计算过程通过稀疏卷积实现。

3.结论

QueryDet利用high-resolution feature来提升小目标检测性能的同时,通过一种新颖的查询机制级联稀疏查询 (CSQ) 来加速基于特征金字塔的密集对象检测器的推理,利用高层低分辨率特征初筛含有小目标的区域,在高分辨特征层上利用初筛获得的位置,并且使用稀疏卷积运算,极大地节约了计算消耗。

要加在v7上,有待解决,估计也解决不了...

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/34580.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java中的线程池

文章目录前言线程池的优点线程池的实现原理线程池的创建线程池提交任务线程池的关闭合理配置线程池线程池的监控总结前言 在处理一些比较复杂或者费时的任务的时候,我们常常会选择多线程的方式去处理。那么怎么创建多个线程呢,当然不可能是一个一个创建…

微信如何制作自己的小程序【微信小程序】

小程序在微信的生态中,一直是比较受到企业商家的欢迎, 由于小程序的制作门槛比较低,开发人员可以根据自己喜欢的风格进行定制开发。 微信平台上,很多商家都在为制作小程序而发愁。那么微信如何制作自己的小程序呢? 一…

[附源码]java毕业设计疫情期间物资分派管理系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

ebay卖家开店如何做到稳定出单?自养号测评对eBay卖家有什么优势?

ebay卖家开店如何做到稳定出单,有何方法。 1、上架 ebay新账户快速下单的方式是拍卖,但拍卖价格不稳定,可能会让商家赔钱。为了快速打开新账户的局面,商家不妨在早期阶段开始拍卖,因为拍卖是最能驱动流量的。请注意&…

中国互联网众筹行业

近些年,中国互联网发展迅速,众筹这种起源于美国的新型互联网金融模式更是一直处于风口浪尖。在“大众创业、万众创新”的背景下,这种低门槛的融资模式也深受欢迎,加上阿里、京东、苏宁三大电商的巨头的相继入场,更令这…

HDC2022的无障碍参会体验,手语服务是如何做到的?

华为开发者大会2022(HDC)上,HMS Core手语数字人以全新形象亮相,并在直播中完成了长达3个多小时的实时手语翻译,向线上线下超过一千万的观众提供了专业、实时、准确的手语翻译服务,为听障人士提供了无障碍参…

组播技术→

基本概念 224.0.0.0-239.255.255.255 组播IP地址是D类。 224.0.0.0-224.0.0.255 本地网络使用,不进行路由转发。 232.0.0.0–232.255.255.255为特定源组播地址 组播mac地址的高24bit为0x01005e,mac 地址的低23bit为组播ip地址的低23bit。 组播协议 组播通信四要素 源发现…

【SpringBoot 】策略模式 之 一键切换文件上传方式

🎶 文章简介:【SpringBoot 】策略模式 之 一键切换文件上传方式 💡 创作目的:将策略模式的思想融入到java编码中,更加便捷的实现文件上传方式的切换。阿里云Oss对象存储、腾讯云Cos对象存储、七牛云Kodo对象存储以及本…

swift指针内存管理-闭包的循环引用

swift指针&内存管理-引用 无主引用 和弱引用类似,无主引用不会牢牢保持引用的实例。但是不像弱应用,无主引用假定是永远有值的 当我们去访问一个无主引用的时候,总是假定有值的,所以就可能会发生程序的崩溃 如果两个对象的…

单片机的调试接口 JTAG SWD

JTAG-DP 和 SW-DP DP?debug port SW serial wire PA13 JTMS SWDIO ------JTAG 模式选择引脚(JTMS) PA14 JTCK SWCLK ------JTAG时钟引脚(JTCK) PA15 JTDI ------JTAG 数据输入引脚(JTDI) PB3 J…

基于VitePress创建组件文档

我们准备用vitepress做我们的组件文档,方便我们浏览组件,提供使用指南给用户。 安装VitePress 安装: yarn add -D vitepress创建第一个文档: mkdir docs && echo # Hello VitePress > docs/index.md增加脚本命令&a…

十大跑步运动耳机品牌排行榜,值得推荐的六款运动耳机

除了工作时间,大多数人群都喜欢去运动健身,戴着耳机放着喜爱的音乐,慢跑在城市的每个角落里,看着各种事物,悠然自得释放压力的同时还能更加有动力去运动,不得不说,运动确实能够让我们暂时忘却烦…

算法训练Day28 | LeetCode93.复原IP地址(回溯算法中的切割问题2);78 子集(每个节点都收集结果);90.子集II(子集问题+去重)

前言:算法训练系列是做《代码随想录》一刷,个人的学习笔记和详细的解题思路,总共会有60篇博客来记录,记录结构上分为 思路,代码实现,复杂度分析,思考和收获,四个方面。如果这个系列的…

通过DIN算法进行深度特征组合商品推荐 数据+代码(可作为毕设)

案例知识点 推荐系统任务描述:通过用户的历史行为(比如浏览记录、购买记录等等)准确的预测出用户未来的行为;好的推荐系统不仅如此,而且能够拓展用户的视野,帮助他们发现可能感兴趣的却不容易发现的item;同时将埋没在长尾中的好商品推荐给可能感兴趣的用户。 方法概述:…

美团SemEval 2022结构化情感分析跨语言赛道冠军方法总结

总第547篇2022年 第064篇美团语音交互部针对跨语言结构化情感分析任务中缺少小语种的标注数据、传统方法优化成本高昂的问题,通过利用跨语言预训练语言模型、多任务和数据增强方法在不同语言间实现低成本的迁移,相关方法获得了SemEval 2022结构化情感分析…

使用dispatchEvent解决重叠元素响应事件问题

.npm 下的缓存文件太多怎么办?.npm 下缓存的包长时间未清理,占用空间太大怎么办? 查看磁盘占用情况 linux 系统里,查看磁盘占用情况:df -h 1.查看单个目录磁盘占用情况du -sh /指定目录 2.查看所有目录的磁盘占用情况…

基于VGG与LSTM实现针对图片的问答任务 数据+代码 可以作为毕设

任务描述:本教程将通过深度学习的方式实现一个简单的视觉问答模型,视觉问答的任务内容是将一张图片和一个自然语言问题作为输入,结合这两种信息,机器生成一条自然语言答案。本教程通过数据准备,视觉问答模型构建,视觉问答模型训练,视觉问答模型评估,视觉问答模型预测等…

2022年亚太C题资料汇总更新目录

1.17版本更新内容: 为大家收集了一套网上的成品论文,切记只能借鉴,不可全抄 1.16版本更新内容: 根据半成品论文中提及的加分点,为大家收集了本次比赛中作图较为好看的方式。 1.15版本更新内容: 对上传…

Hbuilder出现 CR LF

今天打开Hbuilder编辑器发现,咦,怎么变成这个样子了,我设置了啥? 最终尝试寻找了半天,原来这是显示了换行符号 ,取消这个勾选就OK

西门子S7-200 SMART(6ES7 288-1ST40-0AA0)相关与晨控智能CK-FR08-E00关于modbus tcp 通信配置指南

西门子S7-200 SMART(6ES7 288-1ST40-0AA0)相关与晨控智能CK-FR08-E00关于modbus tcp 通信配置指南 准备阶段 软件:STEP 7-MicroWIN SMART PLC:S7-200 SMATR (6ES7 288-1ST40-OAAO) 读卡器:CK-FR08-E00 交换机:标准POE交换机 电源&#x…