Grad-CAM

news2025/7/21 4:31:50

其实还是关于yolo的 利用Grad-CAM解释目标检测框架

研究者研究了视觉物体检测器的可解释性问题。具体来说,研究者在YOLO目标检测器的示例中演示了如何将Grad-CAM集成到模型架构中并分析结果。最后展示了如何计算个体检测的基于归因的解释,并发现结果的归一化对其解释有很大影响。

当今复杂的计算机视觉模型需要解释其行为的机制。这推动了可扩展人工智能(XAI)[Adadi and others, “Peeking inside the black-box: A survey on explainable artificial intelligence (XAI),” IEEE Access]的深入研究。视觉领域中关于XAI的大多数工作都集中于解释视觉分类器,即它们学习到的表示和/或它们的决策。

目前,缺乏用于视觉目标检测器的XAI方法,因为它们的特殊架构阻碍了XAI方法的应用。在今天分享中,研究者以YOLO检测器为例,研究了视觉目标检测器的XAI问题。研究者将Grad-CAM集成到模型中,以生成单个目标检测的解释,即边界框。在检测级别计算注意力图,以评估哪些信息导致某个决策。为此,研究者关注YOLO检测器估计的两个分数,即目标性和类概率,以获得更全面的解释。

研究者批判性地分析了结果,并提出了不同的标准化策略,以使输入图像内或不同图像之间的不同目标检测的注意力图具有可比性。研究者分析了真检测和假检测的结果,并比较了不同的标准化变量以显示结果。

在目标检测和XAI方面都有大量相关工作。令人惊讶的是,这两个领域的结合几乎没有被研究过。罕见的例外是Tsunakawa等人的工作[H. Tsunakawa, Y. Kameya, H. Lee, Y. Shinya, and N. Mitsumoto,“Contrastive relevance propagation for interpreting predictions by asingle-shot object detector,” in 2019 International Joint Conference onNeural Networks (IJCNN).],他们提出了用于单镜头多框检测器,基于传播的XAI方法(逐层相关传播,LRP)的扩展,以及Petsiuk等人[V. Petsiuk, R. Jain, V. Manjunatha, V. I. Morariu, A. Mehra, V. Ordonez,and K. Saenko, “Black-box explanation of object detectors via saliencymaps,” in Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition],他们提出基于随机输入采样的用于目标检测器的事后模型不可知XAI方法。缺乏文献可能是目标检测器高度特定的架构阻碍XAI方法集成的结果。目标检测器需要解释定位和分类方面,并提供影响检测可能性的多个分数。这使得许多特别是自学的解释方法的直接应用变得困难。

检测模型基于Tiny YOLO v3架构,对可重新配置的硬件进行了推理优化,并包含两个检测头,以说明具有不同规模的目标。每个头部的最后一个卷积层存储每个潜在边界框的多个分数:(i)objectness,它提供了一般观察目标的可能性;(ii)所有目标类的类概率向量。对于头部1,该层的大小为1x1x512x30,对于头部2,该层为1x1x256x30。这些层中的特定神经元代表Grad-CAM的输入,用于生成解释。在这些层之后,YOLO架构应用非极大抑制(NMS),并且决策阈值过滤掉最可能的检测结果。

Grad-CAM最初是为传统的CNN架构提出的,用于根据在最后一个卷积层中学习到的抽象特征来解释决策。考虑到YOLO基于卷积滤波器堆栈,Grad-CAM是适用的,但并非没有某些修改。对于给定的检测,首先通过反转NMS过程来识别相应头部的最后一个卷积层中的神经元,该层对应于所研究的边界框的类概率和目标。这些神经元代表计算朝向下层卷积层(即卷积堆栈的顶层特征图)神经元的梯度的起点。

研究者采用两步方法来获得两个分数的解释。梯度首先用于对底层卷积层的激活图进行加权。然后在层的所有通道上对加权激活图进行平均,并放大(即插值)和映射(即颜色编码)到输入图像(416px x 416px),见上图。放大的激活模式突出显示了输入图像中与所调查边界框的类或目标有密切关系的部分。注意,由于YOLO的架构,Grad-CAM的结果是全局图像级别的激活,即,它们不限于观察到的边界框,如下图所示。

渐变CAM激活默认情况下为最小-最大标准化,以提高可见性。这导致在同一图像中和不同图像中的不同目标检测之间的不可比较的激活模式。为了解决这一问题,研究者提出了三种不同的标准化级别:检测级别(默认)、图像级别(图像中所有解释的联合标准化)和数据集级别(一组图像中所有说明的联合标准)。

实验及结果

下图显示了在同一输入图像上错误检测到的卡车。红色海报上的白色矩形文字似乎误导了探测器,使其看到了一辆卡车。目标和类概率在检测级别都会强烈激活,这会给人一种印象,即检测器以高置信度失败。这实际上是不正确的,这可以通过数据集级别(未显示)的归一化来看出,在数据集级别,两种激活都被强烈衰减,这表明检测器实际上对检测不确定。 

研究者通过将Grad-CAM集成到YOLO中,研究了目标检测的可解释性。我们可以可视化其内部决策得分,从而帮助解释目标检测。whaosoft aiot http://143ai.com

结果表明,标准化对于使不同的解释具有可比性至关重要,例如,在不同的图像中。研究者的方法很有效:生成一个解释大约需要半秒钟。未来,我们的目标是使用这些解释来识别运行时的潜在错误检测。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/35750.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Biotin-PEG2-alkyne|紫外线可裂解生物素-二聚乙二醇-炔烃|提供光谱图

试剂基团反应特点(Reagent group reaction characteristics): 紫外线可切割生物素-PEG2-炔烃含有紫外线可切割碎片(containsa UV cleavable Fragemnt),试剂通过点击化学与含叠氮化物的分子反应。点击化学生物素标记试剂包含各种点…

深入浅出PyTorch——PyTorch可视化

1. 可视化网络结构 在复杂的网络结构中确定每一层的输入结构,方便我们在短时间内完成debug 1.1 使用print函数打印模型基础信息 使用ResNet18的结构进行展示 import torchvision.models as models model models.resnet18() print(model)#打印结果 ResNet((conv1)…

算法学习 | 深度优先搜索~一条道走到黑

目录 员工的重要性 图像渲染 岛屿的周长 被围绕的区域 岛屿数量 深度优先搜索(Depth First Search):深度优先搜索属于图算法的一种,其过程主要是对每一个可能的分支路径深入到不能再深入到为止,而且每个节点只能访问一次。深度优先搜…

[毕业设计]机器学习的运动目标跟踪-opencv

目录 前言 课题背景和意义 实现技术思路 第一步:创建单目标追踪器 第二步:读取视频的第一帧 第三步:在第一帧中定位物体 第四步:初始化多目标追踪器 实现效果图样例 前言 📅大四是整个大学期间最忙碌的时光,一边…

leetcode 907. Sum of Subarray Minimums(子数组最小值的和)

所有子数组的最小值求和。 思路: 最容易想到的就是用DFS找出所有子数组,然后每个子数组找最小值,再求和。但显然不是最优的。 因为费尽心思找到了一堆子数组,它们的最小值竟然是相同的, 是不是有种直接用这个最小值乘…

Alkyne-PEG-Biotin,Alk-PEG-Biotin,炔烃-聚乙二醇-生物素试剂供应

英文:Alkyne-PEG-Biotin,Alk-PEG-Biotin 中文:炔烃-聚乙二醇-生物素 CAS编号:N/A 所属分类:Alkyne PEG Biotin PEG 分子量:可定制,生物素-聚乙二醇5-炔烃、生物素-PEG 20-炔烃 、Biotin-PEG…

HCIA 访问控制列表ACL

一、前言 ACL又称访问控制列表,其实这个东西在很多地方都有用,可能名字不太一样但原理和功能都差不太多,比如服务器、防火墙,都有类似的东西,功能其实也就是“过滤”掉不想收到的数据包。为什么不想收到一些数据包呢&…

C++ 测试框架 Gtest学习——qt版本

目录标题一、参考文档二、获取Gtest三、使用(一)qt项目导入Gtest(二)修改pro文件(三)一个简单的例子(四)EXPECT(期望)和ASSERT(断言)介…

ImportError: cannot import name ‘xxx‘ from ‘xxx‘关于python导包的问题

github clone下来的代码,在矩池云跑的好好的,在自己电脑跑却报错。 ImportError: cannot import name ‘helper’ from ‘utils’ (D:\anaconda\envs\TF2.1\lib\site-packages\utils_init_.py) 搜了网上,说加路径 import sys sys.path.appe…

力控关节机器人(关节扭矩传感器力控)

力控机器人本质上属于协作机器人中的一种,其每个关节都带有力矩传感器; [1] 广泛应用在工业、医疗、新零售领域或智能厨房行业。 Franka Emika: 力控机器人每个关节都带有力矩传感器 力矩传感器提供了一种提高机器人力控性能的途径。 更加…

[毕业设计]基于机器视觉的车辆速度检测与识别算法

前言 📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投…

面板平滑转换回归(PSTR)分析案例实现

建模过程包括三个阶段:表述,估计和评估,本文帮助用户进行模型表述、估计,进行PSTR模型评估。 最近我们被客户要求撰写关于PSTR的研究报告,包括一些图形和统计输出。 在程序包中实现了集群依赖性和异方差性一致性检验…

电脑删除的照片怎么找回来?总结了四种方法

照片被删除似乎是常有的事情,如果是重要的照片被删了,想要办法恢复才是最重要的。而对于删除的照片您是如何恢复的呢?这里总结了几种恢复方法,根据自己的需要选择恢复方法,不出意料的话,按照下面的方法你将…

以分割栅格为例实现FME模板的方案优化

一、利用FME分割栅格 (一)问题的产生 对于FME使用者来说,利用FME完成栅格的批量分割是一件极为平常且容易的事情。只需要输入栅格和确定分割方案就可以实现利用FME对栅格数据的分割,再配合FME的“扇出”功能,就能够实…

WebDAV之葫芦儿·派盘+多彩笔记

多彩笔记 支持webdav方式连接葫芦儿派盘。 还记得小时候那款带密码锁的笔记本?有没有好用的笔记app可以将笔记加上密码,不怕小秘密被偷看?推荐朋友们体验下多彩笔记。 多彩笔记是一款简单又精致的记事软件,用户可以在多彩笔记app中存储,编辑,删除或查找记录,对于写作…

干货 | 如何获取Servlet内存马?

前言 对于回显的获取主要是在ApplicationFilterChain类的lastServicedRequest / lastServicedResponse两个属性,是使用的ThreadLocal进行修饰的,并且,在执行请求的过程中,通过反射修改属性值,能够记录下当前线程的req…

CS224W 7 A General Perspective on Graph Neural Networks

目录 A General GNN Framework A single GNN layer 基本形式 Classical GNN Layers: GCN Classical GNN Layers: GraphSAGE Classical GNN Layers: GAT 动机 Attenion Mechanism Multi-head attention Attenion Mechanism的优点 GNN Layer in Practice Stacking Lay…

股票交易接口软件服务涵盖范围有哪些?

通常所说的股票交易接口软件是指量化交易程序员们可以自行查询各大交易网站或交易所的股票历史数据及行情数据的工具,如:实时报价;走势图;价差图;基金、债券、期货、外汇、保险等各类金融数据查询等,进行数…

elasticsearch7.6安装教程及启动常见错误解决方法

elasticsearch就是一个类似数据库用来专门做搜索的一款工具,在大量的搜索条件下,效率很好,可以直接把它当成一个数据库。 1.打开官网 Download Elasticsearch | Elastic,下载历史版本 这里我选择7.6.1 然后点击linux sha 下载,我这里采用迅雷下载到本地后,再利用Xftp上…

【设计模式】装饰器模式( Decorator Pattern)

装饰器模式属于结构型模式,主要解决当系统需要添加新功能,需要向旧类中不断添加新的属性和方法,从而导致整个类的复杂度不断增长的问题。假如新加的代码仅仅是为了满足特定场景下才会执行的需要,那么就没必要全部写在主类中&#…