
3D 视觉感知任务,包括基于多摄像头的
3D检测和地图分割对于自动驾驶系统至关重要。本文提出了一种名为BEVFormer的新框架,它通过使用空间和时间的Transformer学习统一的BEV表示来支持多个自动驾驶感知任务。简而言之,BEVFormer通过预定义的网格形式的Bev Query与空间和时间空间交互来提取时间空间信息。为了聚合空间信息,BEVFormer设计空间交叉注意力(spatial cross-attention),每个BEV Query从不同摄像头的感兴趣区域中提取空间特征。对于时间信息,BEVFormer中提出时间自注意力(temporal self-attention)来反复融合历史BEV信息。BEVFormer在nuScenes测试集上实现了新的SOTA水平,NDS指标为56.9%,相比以往的SOTA提高9.0个点,与基于Lidar的Baseline性能相当。作者还进一步表明,BEVFormer在低可见性条件下显著提高了速度估计的准确性和召回率。
- paper: BEVFormer: Learnin



















