论文阅读笔记 | 三维目标检测——AVOD算法

news2025/8/14 18:55:27

如有错误,恳请指出。


文章目录

  • 1. 背景
  • 2. 网络结构
  • 3. 实验结果

paper:《Joint 3D Proposal Generation and Object Detection from View Aggregation》

1. 背景

AVOD同样是一个two-stage(使用了RPN提取候选框)、anchor-based网络结构。获得较高的召回率对RPN网络来说是比较重要的,但对于稀疏的较低分辨率的输入来说(比如前视图和鸟瞰图)不足以让RPN输出高质量的候选框,且导致低召回率,这会在第二个阶段带来无法逆转的结构。基于这个考虑,AVOD设计了一个新颖的RPN结构可以通过在高分辨率特征图上进行多模态特征融合(将来自RGB图像和BEV的全分辨率特征图为输入),来提高小目标的定位精度。

补充一点,这里与MV3D的处理方法是不一样的。对于MV3D中的是对鸟瞰图的特征进行3d候选框的生成再投影回去每个模态的特征图中获得统一尺寸的roi特征图,所以本质上MV3D融合的信息较小,对于小目标来说检测精度较低。而AVOD采取的方案是利用投影在RGB图与BEV全尺寸的特征图上获取feature crop融合来进行最后边界框的预测,在下面网络结构中会详细介绍。


2. 网络结构

AVOD的网络结构图如下所示。对于BEV输入表示采用与MV3D类似的方式,截取的点云范围是[-40,40]x[0,70],以包含RGB图像视野的点。BEV输入包含6个channel,其中前5个是切片的高度特征(沿z轴0.5m进行切片,提取网格中的最高点),第6个channel是密度特征(网格内的点密度)。
在这里插入图片描述

对于点云这种稀疏数据来说,如果对BEV进行8x下采样卷积提取特征,那么一个0.8x0.6m的行人在0.1m采样下,原本是8x6的像素,而在下采样后的特征图中像素点可能不足1。对于这种情况,需要提高特征图尺寸,这里AVOD使用Encoder-Decoder类似U-Net的结构来对特征进行反卷积到原始大小(如下所示),构建了一个point-wise的特征图。对于BEV和RGB数据,通过这种方式分别构建成BEV特征图以及RGB特征图。
在这里插入图片描述

现在,对BEV图的坐标点以0.5米精度进行间隔采样生成3d锚框网格(3d anchor grid),3d的先验框尺寸通过对真实目标框进行聚类获取。锚框由中心点(tx,ty,tz)以及相对尺寸(dx,dy,dz)进行参数设定,如下图所示的Axis Aligned方法所示。此外,可以通过计算积分图像去除BEV中没有3d点的anchor,以此减少计算量。
在这里插入图片描述

基于BEV采样所获得的3d anchor投影到BEV和RGB上,获得这两个特征图上的感兴趣区域。将此区域截取出来,进行双线性插值变化到3x3的相同大小,随后进行element-wise mean操作融合,再通过全连接构建一组预测参数来生成proposal。输出包括objectness以及回归参数(∆tx,∆ty,∆tz,∆dx,∆dy,∆dz),既回归是通过anchor和ground truth之间的质心和尺寸差异来进行回归。在BEV视图上进行正负样本的判定,iou<0.3是负样本,iou>0.5的正样本。最后通过nms挑选前1024个anchor作为3d proposals。

获得了3d proposals将其投影回去BEV与RGB视图中获得对应区域的feature map,同样的对来自BEV与RGB的两个feature crop进行resize到7x7的大小进行element-wise融合,随后用过3层2048的全连接层进行特征编码。在这个阶段的proposals编码方式采取的是4 Corners+Height,也就是底部的4个角点以及两个高度来对真实框进行回归。这种方式考虑到了3d边界框的物理约束,无需强迫顶角与底角的对齐,减少物理信息的冗余性。所以,4个点的(x,y)位置以及2个高度,特征编码的输出维度由8角点(corner loss)的24维度缩减到了10维度。

损失组成同样有分类损失(cross-entropy loss)以及这种4角点+2高度的定位回归损失(Smooth L1 losses)所构成。这里对car类别BEV视图上iou>0.65是正样本,而pedestrian/cyclist类别只需要iou>0.55。


3. 实验结果

实验结果表明,对于AVOD来说,对BEV和RGB进行反卷积到原尺寸构建高分辨率的特征图有极大帮助,尤其是行人这种小目标,提升效果10%。而本质上,这种反卷积到原始尺寸已经可以作为一个语义分割的任务处理,那么可不可以推断出语义分割网络结构性能提升,提取到这种pixel-wise的强语义特征,在一定程度上也有助于检测任务的性能。
在这里插入图片描述

AVOD对框回归设计了新的回归方法,但是这里并没有对另外两种回归方法(8 Corner、Axis Aligned)进行对比实验,并没有否定添加8 Corner会对精度有提升。此外,基于原尺寸的特征图截取feature crop局部特征有助于小目标的定位检测,整体效果均有提升,这个idea可以在后续处理中保留。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/14921.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【WPF】DiffPlex 文本比对工具

【WPF】DiffPlex 文本比对工具背景关于 DiffPlex准备代码实现效果图源码下载地址背景 现行的文本编辑器大多都具备文本查询的能力&#xff0c;但是并不能直观的告诉用户两段文字的细微差异&#xff0c;所以对比工具在某种情况下&#xff0c;就起到了很便捷的效率。 关于 DiffPl…

D. Extreme Subtraction(差分)

Problem - 1443D - Codeforces 给你一个由n个正整数组成的数组a。 你可以随意使用下面的操作&#xff1a;选择任何一个1≤k≤n的整数&#xff0c;做两件事中的一件。 将数组中的前k个元素递减1。 将数组的最后k个元素递减1。 例如&#xff0c;如果n5&#xff0c;a[3,2,2,1,4]…

【Pytorch with fastai】第 16 章 :训练过程

&#x1f50e;大家好&#xff0c;我是Sonhhxg_柒&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流&#x1f50e; &#x1f4dd;个人主页&#xff0d;Sonhhxg_柒的博客_CSDN博客 &#x1f4c3; &#x1f381;欢迎各位→点赞…

利用jemalloc优化mysql

此方法管理mysql内存也存在一定的弊端&#xff0c;根据自身情况进行选择 优点&#xff1a; jemalloc的确能对内存做一定优化&#xff0c;但是发现并不能解决所有内存碎片问题&#xff0c;只能说有一定缓解作用。 缺点&#xff1a; 使用jemalloc会带来内存增加问题&#xff0…

[附源码]java毕业设计零食销售系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

MySQL8.0 MySQL事务日志、REDO日志、UNDO日志

文章目录学习资料MySQL事务日志REDO日志REDO日志的好处、特点好处特点REDO的组成REDO的整体流程REDO LOG的刷盘策略流程图UNDO日志如何理解UNDO日志UNDO日志的作用作用1&#xff1a;回滚数据作用2&#xff1a;MVCC小结学习资料 【MySQL数据库教程天花板&#xff0c;mysql安装到…

i2c协议的特点是什么,老司机带你深入了解

I2C总线是由Philips公司开发的一种简单、双向二线制同步串行总线。它只需要两根线(一根数据线SDA,一根时钟线SCL)即可在连接于总线上的器件之间传送信息。 在I2C总线中, 各部分器件如下: 主机初始化发送&#xff0c;产生时钟信号和终止发送的器件 从器件被主机寻址的器件 发送器…

浅谈选择示波器时的“5倍法则”

众所周知&#xff0c;选择示波器时经常会用到5倍法则&#xff0c;其实不仅仅是针对带宽&#xff0c;当涉及到快沿信号上升时间测试时&#xff0c;根据上升时间选择示波器也会用到5倍法则。本文将分别对这两种情况下的5倍法则展开讨论&#xff0c;并介绍当考虑示波器和探头构成的…

从结构上浅谈FPGA实现逻辑的原理

FPGA是啥&#xff1f;你要是在百度上一查&#xff0c;多数会搜到什么 Field Programmable Gate Array&#xff0c;现场可编程门整列嘛&#xff0c;但是这句话对咱们新手理解FPGA起到的作用十分有限&#xff0c;其实不单是新手朋友&#xff0c;就连我这个玩了几个月的FPGAer也不…

(三)Logistic回归的梯度下降

一、单个样本的Logistic回归的梯度下降法 在本节中&#xff0c;我们学习如何计算偏导数来实现Logistic回归的梯度下降法。 我们将使用导数流程图来计算梯度。 首先回顾一下Logistic回归的公式 zwTxbz w^TxbzwTxb y^aσ(z)11e−z\widehat{y}a \sigma(z) \frac 1 {1e^{-z}}y​…

会员中心通过AJAX、JSON、PHP、MySql等技术实现注册和登录功能(1+X Web前端开发中级 例题)——初稿

&#x1f4c4;题目要求 阅读下列说明、效果图和代码&#xff0c;进行动态网页开发&#xff0c;补充代码&#xff08;1&#xff09;-&#xff08;30&#xff09;。会员中心&#xff0c;需要先注册后登录&#xff0c;先要求应用HTML、CSS、AJAX、JSON、PHP、MySql等技术实现注册…

反射机制(复习)

反射机制 反射机制定义反射机制的功能反射机制主要的API反射机制演示对 Class 的理解Class实例获取的四种方式Class 对应内存结构说明加载Properties文件的俩种方式调用运行时类的结构调用运行时类的指定属性调用运行时类指定的方法调用运行时类指定的构造器反射的应用&#xf…

技术公开课|深度剖析 Java 的依赖管理,快速生成项目 SBOM清单

背景 近年来软件供应链安全风险涌现&#xff0c;无论是 Fastjson、Log4j 等基础组件的 0day&#xff0c;来源于开源的风险事件不断上升&#xff0c;对于研发以及安全同学来说&#xff0c;都是在不断的摸索建立有效的预防及解决机制&#xff0c;公开课将以风险治理为最终目标、…

Java -- 每日一问:谈谈MySQL支持的事务隔离级别,以及悲观锁和乐观锁的原理和应用场景?

典型回答 所谓隔离级别&#xff08;Isolation Level&#xff09;&#xff0c;就是在数据库事务中&#xff0c;为保证并发数据读写的正确性而提出的定义&#xff0c;它并不是 MySQL 专有的概念&#xff0c;而是源于ANSI/ISO制定的SQL-92标准。 每种关系型数据库都提供了各自特…

(STM32)从零开始的RT-Thread之旅--PWM驱动ST7735调光

上一章&#xff1a; (STM32)从零开始的RT-Thread之旅--SPI驱动ST7735(1) 上一章我们先用SPI读取到了LCD的ID&#xff0c;这一章则是使用PWM调光点亮屏幕&#xff0c;因为测试这块屏幕时&#xff0c;发现直接设置背光引脚为高好像无法点亮&#xff0c;好像必须使用PWM调光&…

信而泰自动化OSPFv2测试小技巧

OSPFv2协议简介 OSPFv2&#xff08;开放式最短路径优先版本2&#xff09;是互联网协议&#xff08;IP&#xff09;网络的路由协议。它使用链路状态路由&#xff08;LSR&#xff09;算法&#xff0c;并且属于在单个自治系统&#xff08;AS&#xff09;内运行的内部网关协议&…

Inter RealSense深度相机ROS驱动

文章目录知识目标1. 深度相机的分类及工作原理2. Inter RealSense D415相机知识目标 学习深度相机的分类和工作原理&#xff1b; 学习Intel RealSense D415相机硬件构成和工作原理。 1. 深度相机的分类及工作原理 深度相机&#xff08;可以测量物体到相机的距离&#xff09;…

Java三大特性篇之——多态篇(千字详解)

JAVA面向对象编程有三大特性&#xff1a;封装、继承、多态,在我们学习了继承后&#xff0c;我们将继续学习多态。 文章目录前言&#xff1a;什么是多态&#xff1f;一、多态实现二、再谈重写三、向上转移四、多态优缺点五、多态案例最后前言&#xff1a;什么是多态&#xff1f;…

MR场景直播-帮助企业高效开展更有意思的员工培训

阿酷TONY / 2022-11-18 / 长沙 MR场景直播、MR培训场景和内容呈现以及直播互动功能&#xff0c;帮助企业高效开展员工培训&#xff0c;让整个培训过程更高效~~~ MR场景直播有哪些有意思的地方呢&#xff1f;先来一个图&#xff1a; ▲ 模拟真实光照还原现实景 丰富培训场景&a…

SQL实用功能手册

SQL实用功能手册 SQL基础复习 SQL结构化查询语言&#xff0c;是一种访问和处理数据库的计算机语言 对数据库操作对表操作对数据进行CRUD操作操作视图、存储过程、索引 环境基础操作 安装mysql、启动mysql、配置环境变量检查mysql版本&#xff1a;mysql --version链接mysql…