AAAI-2025 | 电子科大类比推理助力精准识别!SPAR:基于自提示类比推理的无人机目标探测技术

news2025/5/15 9:36:57

  • 作者: Nianxin Li, Mao Ye, Lihua Zhou, Song Tang, Yan Gan, Zizhuo Liang, Xiatian Zhu

  • 单位:电子科技大学计算机科学与工程学院,上海理工大学机器智能研究所,重庆大学计算机学院,谢菲尔德大学,萨里大学

  • 论文标题: Self-Prompting Analogical Reasoning for UAV Object Detection

  • 论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/34026/36181

主要贡献

  1. 提出了一种基于视觉-语言模型的类比推理框架:该框架包含三个步骤:演绎、映射和推理,分别对应基于语言特征的图构建、图边构建和图推理。通过这种方式,更容易检测到的对象可以支持小而难以检测对象的检测。

  2. 提出了一种自提示方法:为每张图像生成上下文感知提示和目标性提示分数图,隐式提取上下文信息并增强特征表示。

  3. 通过类别级和像素级图节点实现类比推理:增强了直接通过视觉特征难以检测到的对象的特征,使其能够通过关系推理成功检测。

研究背景

  • 随着深度学习的快速发展,目标检测领域取得了显著进展,例如单阶段模型YOLO和两阶段模型Faster-RCNN在COCO和PASCAL VOC等流行数据集上表现出色。

  • 然而,这些技术在应用于无人机(UAV)图像时效果仍不尽如人意。UAV通常从高空拍摄大面积图像,导致物体相对于地面图像显得更小,这种尺度变化使得检测算法难以准确识别和定位小物体。

  • 为了应对这一挑战,以往的研究方法主要分为三类:
    • 第一类是将图像分割成多个区域,然后选择性地放大包含密集物体的区域以增强其分辨率用于目标检测;

    • 第二类是引入额外的网络模块来增强网络提取有意义特征的能力,如注意力机制、多尺度特征融合等;

    • 第三类是通过图像增强技术增加数据多样性,以便在训练期间利用更广泛的场景。

  • 然而,这些方法都没有考虑不同物体之间的关系和上下文信息,导致每个物体是单独检测的,而物体之间的相互依赖和交互则未被考虑。

研究方法

  • 自提示模块:首先利用可学习的描述和CLIP文本编码器生成上下文感知提示,然后通过计算像素级特征与上下文感知提示之间的相似性生成目标性提示分数图。基于该分数图,多尺度图像特征被增强,并选择像素级特征用于图构建。

  • 类比推理模块:图节点由类别级提示节点和像素级图像特征节点组成。基于图卷积进行类比推理,在类别级节点的引导下,不同尺度的目标特征被增强,从而有助于更准确地检测具有挑战性的目标。

  • 图构建与推理:对于每个尺度的特征图,构建包含类别级和像素级节点的图。类别级节点由类别文本嵌入生成,像素级节点由分数图过滤后的像素级特征生成。图边权重基于相似性计算,并通过图卷积进行推理,使得不同位置的目标特征可以相互学习。

  • 损失函数:结合分类对比损失和YOLO损失,通过优化整体损失函数来训练模型。

实验

  • 数据集:使用了VisDrone数据集和UAVDT数据集进行评估。
    • VisDrone数据集包含8599张由无人机拍摄的图像,分为训练集、验证集和测试集,包含十类物体,主要为不同类别的车辆和行人。

    • UAVDT数据集是一个综合性的无人机任务数据集,包含24,143张训练图像和16,592张测试图像,主要用于检测各种车辆类型。

  • 评估指标:采用标准目标检测指标进行评估,包括平均精度均值(mAP)、mAP50和mAP75。
    • mAP表示在0.50到0.95的IoU阈值范围内,以0.05为间隔的平均AP值。

    • mAP50和mAP75分别对应于IoU阈值为0.50和0.75时的AP值。

  • 实验结果
    • 在UAVDT数据集上,SPAR方法的AP值达到了30.5,超过了传统的FPN、Faster R-CNN等方法,以及近期的EVORL方法(28.0)。

    • 在VisDrone数据集上,SPAR的AP值达到了42.8,超过了大多数现有的先进方法。

    • 此外,在不同尺度物体的检测性能上,SPAR在小、中、大物体的检测精度上均优于EVORL方法,分别达到了22.9、40.8和37.5。

  • 可视化比较
    • 通过可视化检测结果和热力图,SPAR方法能够更有效地检测小而密集的物体。

    • 与YOLOv8相比,SPAR的热力图显示出对物体更精确和集中的激活,尤其是在小物体的检测上。

结论与未来工作

  • 结论
    • 本文提出的SPAR方法通过自提示模块生成上下文感知提示来丰富特征表示,并基于分数图提示特征图中的目标性。

    • 类比推理模块利用基于图的推理来改善小而具有挑战性的目标的检测。通过构建两种类型的图节点,分别对应于文本和视觉特征,进行知识演绎;图边构建实现知识映射;图卷积执行推理。

    • 实验结果表明,该方法在无人机图像目标检测方面优于传统方法。

  • 未来工作
    • 虽然SPAR在无人机图像目标检测中取得了良好的效果,但仍有改进空间。例如,可以进一步优化自提示模块和类比推理模块的设计,以提高模型的性能和效率。

    • 此外,可以探索将更多的上下文信息和语义关系融入到目标检测中,以进一步提升检测的准确性和鲁棒性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2375984.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

速查 Linux 常用指令 II

目录 一、网络管理命令1. 查看和配置网络设备:ifconfig1)重启网络命令2)重启网卡命令 2. 查看与设置路由:route3. 追踪网络路由:traceroute4. 查看端口信息和使用情况1)netstat 命令2)lsof 命令…

IIS服务器URL重写配置完整教程

1.下载URL Rewrite Module 2.1 https://www.iis.net/downloads/microsoft/url-rewrite https://download.microsoft.com/download/1/2/8/128E2E22-C1B9-44A4-BE2A-5859ED1D4592/rewrite_amd64_zh-CN.msi 2.安装

注解和 XML 两种方式有什么区别?

注解和 XML 是两种常见的配置方式(尤其在 Java 开发中,如 Spring 框架),它们的主要区别体现在配置方式、代码耦合性、可读性、维护性等方面。以下是两者的对比: 1. 配置方式 注解(Annotation) 在…

高速系统设计实例设计分析二

6.6 仿真约束的生成和实施 进行到这一步,我们已经完成了对实例进行仿真的所有条件的设置,包括对板子的设计要求分析和预布局处理。虽然从技术上讲,我们可以开始进行仿真分析并生成设计的约束,但是根据作者的工作经验,…

【MySQL】变更缓冲区:作用、主要配置以及如何查看

📢博客主页:https://blog.csdn.net/2301_779549673 📢博客仓库:https://gitee.com/JohnKingW/linux_test/tree/master/lesson 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! &…

C2S-Scale:Cell2Sentence v2

目前的单细胞基础模型(scFMs)在可扩展性、跨多种任务的灵活性以及整合文本信息的能力方面仍然有限。基于Cell2Sentence(C2S)框架展开工作,该框架将单细胞RNA测序(scRNA-seq)图谱表示为文本形式的…

技术伦理双轨认证如何重构AI工程师能力评估体系——基于AAIA框架的技术解析与行业实证研究

引言:AI工程师能力评估的范式转型 2025年全球人工智能产业呈现出两大特征:技术迭代加速与监管框架完善。据Gartner数据显示,全球75%的企业在AI项目部署中遭遇技术伦理混合型难题,传统单维度技术认证体系已无法满足产业需求。本文…

ubuntu20.04系统搭建k8s1.28集群-docker作为容器运行时

ubuntu系统搭建 ubuntu-22.04.5-desktop-amd64.iso映像文件--->实际却是20.4focal版本。 【安装过程没有特别指出的默认回车下一步】 【用户和密码设置】 【网络连接】 【在vmware上安装的话,网络配置如下】【在vm里配置选择nat或者桥接即可】 【国内源配置】&…

【Alist+RaiDrive挂载网盘到本地磁盘】

1.安装准备 安装RaiDrive RaiDrive - 像 USB 驱动器一样安装云存储 安装alist 安装方式请查看官网: AList文档 2.启动Alist(docker) docker官网 Install | Docker EngineDocker Desktop | Docker Docs 运行容器 docker run -d --restartalways -v /home/alist:/opt/alist/…

vue实现进度条带指针

效果最终 function calculatePointerPosition(value) {if (value < 2.6) return 12.5; // 非常差位置if (value < 5.1) return 37.5; // 较差位置if (value < 7.1) return 62.5; // 良好位置return 90; // 非常满意位置 }function getStatusText(value) {if (valu…

Kafka Go客户端--Sarama

Kafka Go客户端 在Go中里面有三个比较有名气的Go客户端。 Sarama:用户数量最多&#xff0c;早期这个项目是在Shopify下面&#xff0c;现在挪到了IBM下。segmentio/kafka-go:没啥大的缺点。confluent-kafka-go&#xff1a;需要启用cgo,跨平台问题比较多&#xff0c;交叉编译也…

RustDesk:开源电脑远程控制软件

RustDesk&#xff1a;开源电脑远程控制软件 RustDesk&#xff1a;开源电脑远程控制软件一、RustDesk 简介二、下载教程2.1 桌面版下载2.2 Android 版下载 三、安装教程3.1 桌面版安装 四、功能讲解4.1 远程控制4.2 文件传输4.3 安全可靠4.4 自定义服务器 五、RustDesk技术架构解…

[操作系统] 策略模式进行日志模块设计

文章目录 [toc]一、什么是设计模式&#xff1f;二、日志系统的基本构成三、策略模式在日志系统中的落地实现✦ 1. 策略基类 LogStrategy✦ 2. 具体策略类▸ 控制台输出&#xff1a;ConsoleLogStrategy▸ 文件输出&#xff1a;FileLogStrategy 四、日志等级枚举与转换函数五、日…

MoonBit正式入驻GitCode!AI时代的编程语言新星,开启高性能开发新纪元

在AI与编程语言深度交融的今天&#xff0c;开发者们正见证一场技术生产力的革命。由IDEA研究院基础软件中心倾力打造的MoonBit&#xff08;月兔&#xff09;编程语言&#xff0c;自2023年横空出世以来&#xff0c;凭借高性能、低延迟、轻量化的特性&#xff0c;迅速成为全球开发…

关于vue学习的经常性错误

目录 常见问题&#xff1a; 1关于引用本地下载es6模块文件&#xff0c;报404错误 2 使用createApp函数后没有调用mount函数挂载到浏览器 3 在mount函数中&#xff0c;忘记引用插值表达式所在标签的定位符如 标签选择器&#xff0c;类选择器等 4在直接使用Vue3函数时&#…

AtCoder Beginner Contest 403

再来一场atCoder&#xff0c;这一场简直血虐&#xff0c;让你回忆起了审题的重要性 A - Odd Position Sum 思路&#xff1a;题意很简单&#xff0c;求一个数组奇数位上数字和。很简单的问题&#xff0c;但你如果不仔细审题&#xff0c;就会浪费大量的时间 /* Author Owen_Q…

关于 Golang GC 机制的一些细节:什么是根对象?GC 机制的触发时机?

文章目录 关于 Golang GC 机制的一些细节&#xff1a;什么是根对象&#xff1f;GC 机制的触发时机&#xff1f;简要回顾 Golang GC 三色标记法的工作流程什么是根对象&#xff1f;GC 的触发时机&#xff1f; 关于 Golang GC 机制的一些细节&#xff1a;什么是根对象&#xff1f…

Python笔记:c++内嵌python,c++主窗口如何传递给脚本中的QDialog,使用的是pybind11

1. 问题描述 用的是python 3.8.20, qt版本使用的是5.15.2, PySide的版本是5.15.2, pybind11的版本为2.13.6 网上说在python脚本中直接用PySide2自带的QWinWidget&#xff0c;如from PySide2.QtWinExtras import QWinWidget&#xff0c;但我用的版本中说没有QWinWidget&#x…

C++效率掌握之STL库:map set底层剖析及迭代器万字详解

文章目录 1.map、set的基本结构2.map、set模拟实现2.1 初步定义2.2 仿函数实现2.3 Find功能实现2.4 迭代器初步功能实现2.4.1 运算符重载2.4.2 --运算符重载2.4.3 *运算符重载2.4.4 ->运算符重载2.4.5 !运算符重载2.4.6 begin()2.4.7 end() 2.5 迭代器进阶功能实现2.5.1 set…

新三消示例项目《Gem Hunter》中的光照和视觉效果

《Gem Hunter》是 Unity 的全新官方示例项目&#xff0c;展示了如何在 Unity 2022 LTS 使用通用渲染管线 (URP) 打造抢眼的光效和视效&#xff0c;让 2D 益智/三消游戏在竞争中脱颖而出。 下载示例项目及其说明文档。准备潜入清澈湛蓝的海水中探寻财富吧&#xff0c;因为那里到…