论文阅读:Fast-BEV: Towards Real-time On-vehicleBird’s-Eye View Perception

news2025/6/22 0:14:06

Abstract

  • 现有的BEV解决方案要么需要大量的资源执行车载推理,要么效果一般。
  • Fast-BEV包含五部分:
    1)一个轻量化部署友好的视角转换方式,可以快速将2D图像特征转到3D体素空间。
    2)一个多尺度图像编码器利用多尺度特征。
    3)高效的BEV编码器,专为车载推理加速。
    4)对图像和BEV空间的数据增强(Data Augmentation)策略,以避免过拟合。
    5)一种多帧融合机制利用空间信息。

Introduction

  • 纯相机鸟瞰方法(Pure camera-based Brid’s-Eye View)遵循一下策略:
    • 多相机2D图像特征转车辆坐标下的3D BEV特征。
    • 然后在统一的BEV表示形式上用不同的Head执行特定的任务。
  • SoTA的BEV方法nuScenes [2] 要么使用基于查询的转换或者基于隐式或显式的深度变换。
    在这里插入图片描述
  • 基于Attention的方法需要特别的复杂芯片支持,基于深度的方法需要不友好的体素池化操作。
  • 遵循 M 2 B E V M^2BEV M2BEV[8]的原则:假设在Image-to-BEV的过程中深度沿相机射线均匀分布,我们提出 Fast-Ray Transformation:通过Look-Up-Table和Multi-View到One-Voxel的操作,加速了BEV的转换到一个新的水平。基于快速射线变换,我们进一步提出了Fast-BEV,一种更快更强的全卷积BEV感知框架,而不需要代价更大的Transformer或深度表示。

Methods

Rethink BEV Preception 2D-to-3D Projection

  • 基于查询的方法(Query Based)通过Transformer中的注意力机制获得3D BEV特征。这个过程可以展示为:
    在这里插入图片描述
  • q,k,v分别为query, key以及value, q ∈ P x y z , k , v ∈ F 2 D ( u , v ) q \in P_{xyz}, k,v \in F_{2D}(u,v) qPxyz,k,vF2D(u,v)
  • 基于深度的方法(depth-based)通过计算2D特征与预测深度的外积。
    在这里插入图片描述
  • Pool 是体素(voxel)池化操作(voxel pooling operation)。

Overview of Fast-BEV

在这里插入图片描述

  • Fast-BEV 输入多摄像头图像作为输入,预测3D Bounding Boxes. 它的主要框架可以分成五个关键部分:
  • 从图像空间到体素空间的投影造成延迟,所以提出了快速-射线转换(Fast-Ray Transformation),投影多幅2D图像特征沿相机射线到3D体素,并且有两个操作优化车载平台。
    • 我们预先计算固定投影引索并且存储成 Look-Up-Table, 在推理中非常高效。
    • 让所有的相机投影到相同体素以避免昂贵的体素聚合(Multi-View to One-Voxel)。
  • 多尺度图像编码器(Multi-Scale Image Encoder), 图像编码器通过3层FPN输出结构从统一的单尺度图像输入中获得多尺度图像特征输出。
  • 高效的 BEV encoder(Efficient BEV Encoder):实验发现,在快速增加耗时的同时,在3D编码器中使用更多的块(Blocks)和更大的分辨率并不能显著提高模型的性能。除了“space-to-channel”(S2C)外,我们只使用了一层multi-scale concatenation fusion(MSCF)和multi-frame concatenation fusion(MFCF)模块作为BEV编码器,且剩余结构较少的BEV编码器,大大减少了时间消耗,对精度没有损失。
  • 数据增强(Data Augmentation):我们增加强数据增强方法在图像和鸟瞰(BEV)空间,比如random flip, rotation etc…
  • 时域融合Temporal Fusion. 在自动驾驶场景下,输入图像是连续的,有大量的互补信息。我们通过引入temporal feature fusion module扩展框架到时间域。

Reference

[1] Li Y, Huang B, Chen Z, et al. Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline[J]. arXiv preprint arXiv:2301.12511, 2023.
[2] H. Caesar, V. Bankiti, A. H. Lang, S. Vora, V. E. Liong, Q. Xu, A. Krishnan, Y. Pan, G. Baldan, and O. Beijbom, “nuscenes: A multimodal dataset for autonomous driving,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020,
pp. 11 621–11 631.
[3] Z. Li, W. Wang, H. Li, E. Xie, C. Sima, T. Lu, Q. Yu, and J. Dai, “Bevformer: Learning bird’s-eye-view representation from multicamera images via spatiotemporal transformers,” arXiv preprint arXiv:2203.17270, 2022.
[4] Y. Wang, V. C. Guizilini, T. Zhang, Y. Wang, H. Zhao, and J. Solomon, “Detr3d: 3d object detection from multi-view images via 3d-to-2d queries,” in Conference on Robot Learning. PMLR, 2022, pp. 180–191.
[5] J. Philion and S. Fidler, “Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d,” in European Conference on Computer Vision. Springer, 2020, pp. 194–210.
[6] J. Huang, G. Huang, Z. Zhu, and D. Du, “Bevdet: High-performance multi-camera 3d object detection in bird-eye-view,” arXiv preprint arXiv:2112.11790, 2021.
[7] Y. Li, Z. Ge, G. Yu, J. Yang, Z. Wang, Y. Shi, J. Sun, and Z. Li, “Bevdepth: Acquisition of reliable depth for multi-view 3d object
detection,” arXiv preprint arXiv:2206.10092, 2022.
[8] E. Xie, Z. Yu, D. Zhou, J. Philion, A. Anandkumar, S. Fidler, P. Luo, and J. M. Alvarez, “M2bev: Multi-camera joint 3d detection and segmentation with unified birds-eye view representation,” arXiv preprint arXiv:2204.05088, 2022.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1086572.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mac/Wins Matlab如何查看APPs源码

查看Apps方法一样,点击HOME-preferences-MATLAB-Apps查看你的Apps安装路径。 你的Apps文件就安装在该目录下,直接进入这个目录就可以看到你自己写的APPs文件,

Fastjson历史版本记录

1.2.24 TemplatesImpl,利用条件苛刻,需要开启Feature.SupportNonPublicField {"type": "com.sun.org.apache.xalan.internal.xsltc.trax.TemplatesImpl","_bytecodes": ["yv66vgAAADQA...CJAAk"],"_name…

光通路数据单元(ODU),ODUk,同步传送模块(STM),虚容器(VC)等级

文章目录 ODUk同步传送模块,STM虚容器,VC时隙 光通路 数据 单元(ODU,Optical channel data unit) 提供与信号无关的连通性,连接保护和监控等功能,这一层也叫数据通道层。 ODUk,k值越大,帧周期越…

SpringBootCms

SpringBootCMS,极速开发,动态添加字段,自定义标签,动态创建数据库表并crud数据,数据库备份、还原,动态添加站点(多站点功能),一键生成模板代码,让您轻松打造自己的独立网站&#xff…

spark读取hive表字段,区分大小写问题

背景 spark任务读取hive表,查询字段为小写,但Hive表字段为大写,无法读取数据 问题错误: 如何解决呢? In version 2.3 and earlier, when reading from a Parquet data source table, Spark always returns null for any column …

高防CDN:网络安全的锁与钥匙

深度解析高防CDN原理 高防CDN,一门整合防护与分发功能的互联网安全技术,以卓越之姿应对DDoS攻击等网络威胁,巧妙地辨识和过滤访问源地址,以保障用户畅通访问和服务的稳定。其核心原理包括: 流量清洗: 高防C…

mysql数据库语法改造成dm数据库DATE_SUB

给了一个任务就是把一个项目用dm数据库正常跑起来,真的难呀,项目原本是使用的mysql、 问题寻找 dm数据库保存,我看mysql跑的挺好的,然后开始找原因。 其中还没有看懂这两个函数,特意搜了搜 LAST_DAY 取最后一天 DATE_…

社区投稿| 以安全视角,深度剖析 Sui Staking 与 LSD

本篇技术研报由 MoveBit 研究团队的 Jason 撰写 #1 Sui Staking 介绍 1.1 Sui 网络概述 Sui 网络由一组独立的验证者运行,每个验证者在自己的机器或集群上运行独立的 Sui 软件实例。 Sui 采用委托权益证明(DPoS)来确定哪些验证者参与网络…

Bootstrap的下拉菜单组件相关知识

Bootstrap的下拉菜单组件依赖于第三方popper.js插件实现,popper.js插件提供了动态定位和浏览器窗口大小监测,所以在使用下拉菜单时确保引入了popper.js文件,并且要放在引用Bootstrap.js文件之前前。 目录 01-下拉菜单基本结构02-分裂式下拉菜…

世和基因NGS大Panel IVD产品获批上市

近日,国家药品监督管理局(NMPA)通过创新医疗器械特别审批,批准世和基因旗下南京世和医疗器械有限公司的非小细胞肺癌组织TMB检测试剂盒(可逆末端终止测序法)(国械注准20233401452)上…

验收测试的关键步骤您知道吗

验收测试是软件开发生命周期中的重要环节,用于验证项目交付是否符合用户需求和质量标准。本文将介绍验收测试的定义及实施验收测试的关键步骤。 一、验收测试的定义和目标 确保项目交付质量:通过主动验证和评估软件系统的功能、性能和质量,确…

JS调试技巧

插桩导出全局变量 在代码段中导出运行 1.先找到需要的调试的函数 2.删除逗号给后面的变量加VAR 3.用个window.变量去接收需要的函数,让他变成全局变量 4.直接执行 window.wang.md5(123123213123) eval,AA,OO,JJ导出混淆参数 重写evel…

虚拟机独立 IP 配置

虚拟机独立 IP 配置 1. 点击虚拟网络编辑器 2. 点击更改设置 3. 查看本地电脑网卡型号并设置虚拟网络编辑器桥接网卡为同型号网卡 4. 设置有限网络信息 5. 点击网络编辑按钮并点击身份 6. 编辑名称并选择MAC地址 7. 配置 IPv4 地址后点击应用即可

2021上海市赛【10.10训练补题】

Dashboard - The 2021 Shanghai Collegiate Programming Contest - Codeforces 参考题解:2021CCPC上海省赛题解ABCDEGHIJK_2021ccpc上海题解_Hytidel的博客 A. 小 A 的点面论(数学几何) 题解:求平面的法向量(外积法…

sshpass传输文件提示Host key verification failed.

1. sshpass功能简述 sshpass指令可用于A服务器向B服务器传输文件或执行某些指令。 2. 传输文件指令 基本传输命令:sshpass -p 远程服务器登录密码 scp 本地路径文件 远程服务器登录用户名远程服务器IP地址:远程服务器文件保存路径 示例: sshpass -p 1…

HVV行动是什么?网络安全的重要布局!

1 什么是HVV行动 “HVV行动” 是国家应对网络安全问题所做的重要布局之一,是由政府统一组织的"网络安全实战攻防演习,通过与进攻方的对抗,企事业单位网络、系统以及设备等的安全能力会大大提高。 2 发展 “HVV行动”从2016年开始&#…

基于R和gephi做宏基因组与代谢组等多组学联合network相关性网络图

写在前面 拿到多组学的数据后一直在找合适的方法将二者进行关联,比如我这里是三种体液的代谢组与一种体液的宏基因组。需求是对多组学进行关联分析,直到最近看到不少文章里利用Gephi将相关性表格进行可视化的图,效果还不错,于是写…

拼多多商品品牌数据接口,拼多多商品详情数据接口,拼多多优惠券数据接口,拼多多API接口

拼多多商品品牌数据采集方法如下: 手动数据采集。直接在拼多多平台上搜索并手动复制商品数据,适合采集小批量的商品数据,但不适用于大规模数据采集。手动采集需要手动输入搜索词,进行筛选后再复制所需的数据,该方法需…

mybaits入门实验

实验准备 创建数据库和数据表sql语句,代码如下所示。 CREATE DATABASE mybait_demo; USE mybait_demo;CREATE TABLE tb_student( sno INT AUTO_INCREMENT PRIMARY KEY, student_name VARCHAR(20) NULL, student_age INT NULL );给表中插入四条数据…

2023年09月 C/C++(三级)真题解析#中国电子学会#全国青少年软件编程等级考试

C/C编程(1~8级)全部真题・点这里 Python编程(1~6级)全部真题・点这里 第1题:谁是你的潜在朋友 “臭味相投”——这是我们描述朋友时喜欢用的词汇。两个人是朋友通常意味着他们存在着许多共同的兴趣。然而作为一个宅男&…