论文阅读笔记 | 三维目标检测——SECOND算法

news2025/7/19 21:01:02

如有错误,恳请指出。


文章目录

  • 1. 背景
  • 2 网络结构
    • 2.1 3d Backbone
    • 2.2 Loss Compute
    • 2.3 Data Augment
  • 3. 实验结果

paper:《SECOND: Sparsely Embedded Convolutional Detection》

1. 背景

鉴于VoxelNet等3d检测算法中使用的3d卷积会导致计算量大且推理速度慢的问题,所以这里提出了一种稀疏卷积(sparse convolution method)。在介绍VoxelNet中,也提及到由于其损失结构采用直接回归的方式,虽然简洁但可能会限制其网络性能,在此基础上,SECOND提出了一个新的损失函数与数据增强策略来对其进行改进。


2 网络结构

2.1 3d Backbone

整体的SECOND结构与VoxelNet机构是一样的,结构图如下所示。但是,在VoxelNet中使用的3d卷积,这里SECOND提出了稀疏卷积对其进行替换,大大提高了推理速度。
在这里插入图片描述

稀疏卷积有两种:
1)正常稀疏卷积层:没有相关的输入点就不用计算输出点。该方法在仅基于LiDAR的方法上有益。
2)子流型卷积:限制当且仅当相应的输入位置处于活动状态时,输出位置才处于活动状态。这避免了生成过多的活动点,因为活动点过多会导致后续卷积层的速度下降。

在这里插入图片描述

稀疏中间层特征提取如上图所示,其中黄色框表示稀疏卷积,白色框表示子流形卷积,红色框表示稀疏到密集层。可以发现其有两个稀疏卷积阶段,每个阶段有多个子流型卷积层和一个正常稀疏卷积层对z轴进行下采样。在z轴维度下采样到1或2时将稀疏数据转化为稠密特征图,reshape成2D数据。

ps:对于稀疏卷积的具体原理,可以参考:稀疏卷积 Sparse Convolution Net,对于稀疏卷积的代码实现可以查看参考资料3和5.

2.2 Loss Compute

对于损失部分,SECOND对位置信息xyz以及尺寸信息whl都采用了和VoxelNet一样的方法,也就是直接回归预测,但是对于角度预测进行了改进。这是由于VoxelNet直接预测弧度偏移,但在0和π的情况下会遇到一个对立的问题,因为这两个角度对应的是同一个盒子,但当其中一个被误认为是另一个时,会产生很大的损失。这里SECOND对于角度的损失函数设置为:Lθ = SmoothL1(sin(θp − θt))。

现在对此损失函数进行分析。SmoothL1函数是偶函数,而Sin函数是奇函数。假设有两个对称的anchor对ground truth的角度偏移为-20与20。那么,先经过了奇函数再经过一个偶函数,这两个框与ground truth所得到的损失是一致的。也就是 SmoothL1(sin(20)) = SmoothL1(sin(-20))。这样就可以解决对立情况损失较大的问题,现在可以将对立损失改为一致,同时还可以根据角度偏移函数模拟出iou。但是由于两个相反方向的损失一致,如何判别正负方向。SECOND的解决方案是再输出一个direction head(方向分类器)来判别,如果anchor绕GT的z轴旋转大于0,则结果为正;否则为负。

SECOND的RPN结构如下所示,由于新增加了一个方向分类器,所以总共有三个head:score map(类别分类器)、regression map(回归预测)、direction map(框方向分类器)。这里同样使用了多尺度融合的策略,进行两个尺寸的下采样再上采样到相同尺寸进行拼接融合。后续再对融合的特征图进行1x1卷积降维构建3个head。
在这里插入图片描述

2.3 Data Augment

此外,SECOND还提出了一种类似copystate的数据增强策略。将GT及其包含的点提取出来, 做成一个数据库,当训练的时候,随机取出几个GT放到正在训练的场景中。但是为了避免重叠,所以会进行一个碰撞测试,思想是类似的,只是实现的方法不一样。其他的数据增强策略就不多说了,就是和VoxelNet类似的随机缩放,随机旋转等。


3. 实验结果

SECOND就是在VoxelNet的基础上提出了稀疏卷积来提高推理速度,同时还设计了一种新颖的角度损失解决了对立情况(0与π)损失较大的问题,但需要direction map来进行辅助处理。测试集结果如下所示,推理速度上达到了SOTA水平。
在这里插入图片描述

验证集结果如下所示:
在这里插入图片描述


参考资料:

1. 论文阅读 SECOND:Sparsely Embedded Convolutional Detection
2. SECOND笔记
3. 基于pytorch简单实现稀疏3d卷积(SECOND)
4. 稀疏卷积 Sparse Convolution Net
5. 优化版-基于pytorch简单实现稀疏3d卷积(SECOND)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/35927.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智慧税务解决方案-最新全套文件

智慧税务解决方案-最新全套文件一、建设背景税务大数据现状和挑战1、数据割裂,外部数据整合不足,智能化应用不足2、缺乏统一治理,数据资产不清,质量不高3、数据获取效率低,数据冗余、查询效率低4、 运营运维体系不健全…

【Linux】---进程地址空间

文章目录什么是进程地址写时拷贝为什么要有进程地址为了保护物理内存更方便进行进程和进程数据的解耦统一视角操作系统怎么管理进程地址区域划分在之前学习C/C的时候都会提到 地址这个概念,我们写代码时创建变量,定义函数等都会有其对应的地址空间。而地…

成为数字游民,他们为何「All in Web3」?

成为数字游民,他们为何「All in Web3」? “早上好,夜之城。” 赛博朋克承载着一代人对未来世界的遐想。今年上映的「赛博朋克:边缘行者」中,主人公大卫面临着不夜城旧有制度的高压和控制,对旧有秩序不断发…

C++STL-string类的实现(下)

文章目录1. 流插入和流提取1.1 流插入1.2 流提取2. 现代写法的拷贝构造和赋值函数2.1 现代写法的拷贝构造2.1 现代写法的赋值函数3. string类的迭代器实现3.1 正向迭代器1. 流插入和流提取 1.1 流插入 可能有的同学会这样去写:以一个字符串形式来输出。还有的人会这…

《CTFshow - Web入门》03. Web 21~30

Web 21~30web21知识点题解web22知识点题解web23知识点题解web24知识点题解web25知识点题解web26知识点题解web27知识点题解web28知识点题解web29知识点题解web30知识点题解web21 知识点 tomcat 认证爆破burpsuite暴力破解(Sniper)之custom iterator使用…

用Numba:一行代码将Python程序运行速度提升100倍

用Numba:一行代码将Python程序运行速度提升100倍 在《用PyPy加速Python程序》中我们看到,PyPy通过JIT技术可以将Python的运行速度平均提高3-4倍。但即便是提升后,Python的执行速度依然无法与C/C/Rust同日而语。并且PyPy对Python程序的优化对…

【计算机毕业设计】33.快递取件预约系统源码

一、系统截图(需要演示视频可以私聊 摘 要 本论文主要论述了如何使用JSP技术开发一个快递取件预约系统,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,作者将论…

GEO振弦式钢筋计适用范围

适用范围 钢筋计:用于监测岩土工程混凝土建筑物的应力,适用于长期埋设在水工建筑物或其他建 筑物内部,测量结构物内部的钢筋应力。 锚杆应力计:钢筋计用于测量锚杆应力时,成为锚杆应力计。装上锚杆应力计的锚杆称…

Flink部署之Yarn

Flink部署之Yarn 一、环境准备 1、Flink 是一个分布式的流处理框架,所以实际应用一般都需要搭建集群环境。 需要准备 3 台 Linux 机器。具体要求如下: 系统环境为 CentOS 7.5 版本。安装 Java 8。安装 Hadoop 集群,Hadoop 建议选择 Hadoop…

ORB-SLAM2 ---- Tracking::TrackReferenceKeyFrame函数

目录 1.函数作用 2.步骤 3.code 4.函数解析 4.1 将当前帧的描述子转化为BoW向量 4.2 总体解释 1.函数作用 用参考关键帧的地图点来对当前普通帧进行跟踪。 2.步骤 Step 1:将当前普通帧的描述子转化为BoW向量 Step 2:通过词袋BoW加速当前帧与参考帧…

PG::Covfefe

nmap -Pn -p- -T4 --min-rate1000 192.168.205.10 nmap -Pn -p 22,80,31337 -sCV 192.168.205.10 先查看31337端口的robots.txt目录,几个隐藏文件未发现可利用的地方 dirb对31337路径的枚举中发现了.ssh 访问后发现存在私钥 下载id_rsa和id_rsa.pub 得知用户名为…

Vscode-Git graph怎么看?

VScode可以使用插件查看git提交图谱,这个图谱看起来眼花缭乱,今天花时间看懂了,在这里分享一下。 在Vscode插件中搜索git graph安装 打开git项目,在左下角可以看到git graph 在右侧可以看到按照时间分布的commit,代表…

Java JSP JAVAweb在线考试系统源码网上考试系统源码(ssm考试管理系统)

JSP在线考试系统源码网上考试系统源码(ssm考试管理系统)

PLC中ST编程的IF判断

如果判断条件是如果...否则...的时候; 如果wData的值是16进制的FFFF,十进制的65535;就执行IF中的语句,否则就执行ELSE中的; 当wData的值为0时,因不符合IF的判断条件,执行了ELSE中的语句&#x…

MySQL索引底层数据结构

索引简介 索引是一个排好序的数据结构,包含着对数据表里所有记录的引用指针,如下图所示。索引文件和数据文件一样都存储在磁盘中,数据库索引的目的是在检索数据库时,减少磁盘读取次数。 常见的索引数据结构包括二叉树、红黑树、…

node多版本控制

今天遇到一个问题: 下载了一个vue项目,一直卡在npm install阶段,折腾了半天,发现是版本太高了,需要降低一下版本,但是其他项目需要高版本的,这不就冲突了; 找到了一个node多版本控制…

基于SSM的亲子活动平台的搭建与实现(源码+数据脚本+论文+技术文档)

项目描述 临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下,你想解决的问…

葡萄糖-聚乙二醇-刀豆球蛋白A,ConcanavalinA-PEG-Glucose

葡萄糖-聚乙二醇-刀豆球蛋白A,ConcanavalinA-PEG-Glucose 中文名称:葡萄糖-刀豆球蛋白A 英文名称:Glucose-ConcanavalinA 别称:刀豆球蛋白A修饰葡萄糖,ConA-葡萄糖 存储条件:-20C,避光&…

数据结构复习题

数据结构课程复习纲要 核心知识点 从数据结构的逻辑结构、存储结构和数据的运算三个方面去掌握线性表、栈、队列、串、数据、广义表、数和图等常用的数据结构。掌握在各种常用的数据结构上实现的排序和查找运算。对算法的时间和空间复杂度有一定的分析能力。针对简单的应用问…

Python:每日一题之四平方和

题目描述 四平方和定理,又称为拉格朗日定理: 每个正整数都可以表示为至多 4 个正整数的平方和。 如果把 0 包括进去,就正好可以表示为 4 个数的平方和。 比如: 5 0^2 0^2 1^2 2^2; 7 1^2 1^2 1^2 2^2&am…