MMAUD:面向现代微型无人机威胁的全面多模态反无人机数据集
摘要https://arxiv.org/pdf/2402.03706针对小型无人机UAV不断演变的挑战其具备运输有害载荷或独立造成破坏的潜力我们推出了 MMAUD一个全面的多模态反无人机数据集。MMAUD 通过专注于无人机检测、无人机类型分类和轨迹估计填补了当代威胁检测方法中的关键空白。MMAUD 的突出之处在于融合了多种传感输入包括立体视觉、各类激光雷达Lidar、雷达Radar和音频阵列。它提供了一种独特的俯视空中检测视角对于解决现实场景具有比使用热成像和 RGB 相机在特定视点捕获的数据集更高的保真度。此外MMAUD 提供了由徕卡Leica生成的高精度地面真值数据增强了可信度并能够可靠地改进算法和模型这是其他数据集从未具备的。大多数现有工作不公开其数据集这使得 MMAUD 成为开发准确高效解决方案的宝贵资源。我们提出的模态具有成本效益且高度适应性强允许用户实验和实现新的无人机威胁检测工具。我们的数据集通过融入环境重型机械噪声紧密模拟了现实场景。这种方法增强了数据集的适用性捕捉到了近距离车辆操作期间面临的实际挑战。预计 MMAUD 将在推进无人机威胁检测、分类、轨迹估计等能力方面发挥关键作用。我们的数据集、代码和设计将在https://github.com/ntu-aris/MMAUD公开。关键词无人机激光雷达音频视频融合检测分类轨迹估计I. 引言在商用现成COTS紧凑型无人机 capabilities 卓越的时代其滥用潜力巨大。这些无人机具有广泛的航程、高海拔作业能力并能最大限度地减少热和声学特征使其隐蔽且适合未经授权进入限制区域或被重新用于潜在有害活动。近期的战争冲突凸显了这些民用无人机的适应性它们成功规避了甚至依赖红外或雷达瞄准的便携式防空系统。其降低传感器特征的能力对传统检测方法提出了挑战提供了一种实现空中隐蔽的经济高效手段并对生命安全构成威胁。为应对这些不断演变的挑战我们推出了反无人机数据集这是一个用于检测、分类、跟踪和估计此类无人机轨迹的综合数据集。我们的贡献可总结如下我们引入了一个多模态数据集集成了视觉、激光雷达阵列、雷达和音频阵列传感器为先进的无人机检测技术提供了丰富多样的数据来源如图 1 所示。利用徕卡生成的地面真值数据我们的数据集在反无人机数据集领域设立了前所未有的毫米级精度基准这是以往数据集所不具备的显著特征。我们的方法采用经济高效的传感器配置和开源代码促进了移动就绪、拯救生命应用的开发。代码和数据集对社区完全开放鼓励协作研究和创新。II. 相关工作据我们所知涵盖多模态感知工具用于 COTS 无人机检测、跟踪、分类和轨迹估计任务的数据集寥寥无几如表 I 所示。大多数用于跟踪的社区数据集主要关注汽车[1]和行人[2]等常见物体虽有潜力纳入无人机等新类别但 2D 检测数据集通常提供图像却缺乏 3D 位置地面真值和充足的标注。近年来CVPR 出现了反无人机挑战赛[3]–[5]。然而这些数据集[3],[4],[5],[6],[7],[8]依赖于昂贵的热成像和 RGB 相机通常部署在高处视点且常需人工干预进行精确瞄准。它们主要专注于目标检测和 2D 跟踪缺乏 3D 轨迹估计。这些数据集主要为计算机视觉相关挑战设计很少适用于现实野外应用。某些研究致力于开发无人机对抗系统。然而即使是提供数据集[11]的研究也通常模态和地面真值有限主要设计用于室内应用。此外大多数其他数据集[6]–[8],[10],[11]仅使用一到两种模态并采用手动或半自动标注这对全面和泛化的评估构成了挑战。部分数据集[9]专注于通过音频输入进行无人机分类但缺乏空间信息和传感器套件的威胁指示。Zheng 等人[12]提出了一种新思路采用多视图立体设置检测和跟踪附近无人机。然而其工作因缺乏公开代码和数据集而受阻。此外他们提出的系统成本高昂且涉及$16$–$32$个相机阵列的复杂同步和计算。鉴于近期战争冲突的经验识别头顶威胁的能力至关重要且倾向于采用经济实惠的传感器配置以促进关键生命拯救应用的广泛采用。在许多情况下已提出新的无人机检测方法[13]–[23]各自声称达到一定的精度和性能水平。然而这些方法均未提供其数据集或源代码的访问权限且明显缺乏对如何获取精确地面真值的讨论这一方面是我们先前工作[24]的区分点。缺乏开放数据集和代码贡献引发了对其发现有效性和可重复性的担忧。其他理论研究[25]–[29]利用距离[26],[28]或方位角[25]观测进行无人机状态估计和跟踪。然而这些方法在现实场景中通常被视为不切实际因为它们严重依赖特定假设且无法验证其有效性。射频RF检测是另一种方法但由于无人机频率范围广泛而面临挑战。开发单一设备以有效监控所有频道十分困难。部分无人机不发射 RF 信号使得 RF 检测不可靠。DJI Aeroscope 等商用无人机检测系统已经存在降低了在我们的数据集中纳入该模态的必要性。III. 传感器设置为容纳整个传感器套件我们设计了一个定制铝制支架如图 1 所示。表 I 总结了各传感器及其规格。每条消息均根据其在 ROS 中的发布时间添加时间戳。下面我们将更详细地介绍每个传感器。立体相机MMAUD 数据集包含两个向上定向的 PIXELXYZ 彩色相机成本约$200$美元。这些相机通过集成触发机制同步确保同时捕获和传输图像。图像拼接后通过 UVC 相机协议传输。基线间距约$17.8\text{cm}$该立体设置可实现高达$20\text{m}$的鲁棒立体深度感知在理想情况下单台相机可在$100\text{m}$外以$2560\times960$分辨率看到无人机。每台相机提供广阔的$180^\circ$视场角极大增强了整个地平线上的无人机检测能力同时形成局部穹顶状检测体积。这种穹顶状感知概念与早期先进研究[12]相似。然而我们的方法成本效益显著更高采用预算友好的双相机立体设置而非价值$14000$美元的 32 相机立体系统。此外尽管这些相机由中国小型工坊制造但其成像质量优于 Flir Blackfly 同类产品。最终目标是将此系统转化为可穿戴或车载设备以合理成本有效缓解无人机威胁。锥形 3D 激光雷达本数据集还包括一个向上定向的 DJI Livox Avia 激光雷达系统设计用于锥形检测。该系统有效覆盖中心$70^\circ$锥形视场角可靠检测距离高达$300\text{m}$的物体。其非重复扫描模式确保视场内有可能检测到无人机尽管无法保证持续检测。虽然存在更经济的替代品如 Livox Mid 50、Mid-60 和 Horizon但选择此传感器是为了内部 IMU 集成。此集成便于未来在移动车辆中使用实现点云数据的运动补偿。不过该功能不在本文讨论范围内。外围 3D 激光雷达本研究采用外围水平放置的 DJI Livox Mid360 激光雷达系统被证明是经济高效的解决方案。Mid360 提供广阔的$360^\circ$水平视场角和地面上方$59^\circ$垂直视场角高度 capable 检测$70\text{m}$范围内的物体。其非重复扫描模式确保视场内所有点被有效扫描是检测接近 rogue 无人机的理想选择。此成本效益设备在增强系统检测附近障碍物和潜在威胁的能力方面发挥关键作用。音频阵列无人机的一个显著特征是其独特的噪声发射。在我们的研究中我们通过在传感器支架上安装四个经济高效的海康威视 DS-VM1 全向麦克风阵列来增强无人机检测这是一种适合大规模部署的低成本 4 通道变体。这些阵列有效捕获高达$10\text{m}$范围内的人声噪声水平。这些麦克风在$30\text{-}40\text{m}$距离处也能出色检测更响亮的无人机。值得注意的是四个麦克风阵列仅花费$150$美元使其预算友好且适用于各种场景。我们将四个麦克风战略性地布置成十字形配置从而能够使用精确的到达时间差TDOA方法有效确定 incoming 无人机的方向和范围。这一创新增强了检测和应对潜在威胁的能力使其成为多种场景中的宝贵资产。毫米波雷达最后我们为数据集引入了一个高价值组件——Oculii Eagle ETH04 77GHz 毫米波点云成像雷达成本约$3600$美元。该雷达是数据集中最有价值的组件之一与文献和现实部署系统中用于无人机威胁检测的系统一致。我们选择该单元是基于其卓越属性特别是相较于 TI如 TI AWR1843雷达具有更长的检测范围和更优的封装。Eagle ETH04 雷达拥有$120^\circ$水平视场角和$30^\circ$垂直视场角。在检测高达$350\text{m}$的移动物体方面表现出色。该雷达的增强功能使其成为数据集中的突出补充进一步丰富了其在各种场景中的潜在应用和有效性。地面真值利用徕卡 Nova MS60 多站仪我们跟踪放置在无人机上的晶体棱镜作为位置估计的宝贵地面真值来源如图 3 所示。值得注意的是该地面真值系统采用的坐标系在启动过程中与重力场对齐导致其$z$轴指向重力相反方向。徕卡跟踪系统以$5\text{Hz}$频率记录无人机地面真值位置。为确保准确同步我们根据徕卡系统提供的时间戳对数据进行分段。这使我们能够将每张图像与其对应的地面真值位置精确对齐。IV. 数据集特征数据集分为六组分别对应不同的无人机类型Mavic2、Mavic3、Avata、Phantom4、M300 以及环境噪声序列如图 2 所示。无人机的速度、尺寸和估计的雷达截面积RCS均根据相对地面真值进行了精确建模。每个序列均包含视觉、$4\times$音频、$2\times$激光雷达和雷达信息如图 3 所示。认识到音频模态的重要性我们基于先前工作[30]的评审意见在户外环境中进行了测试以创造更逼真的设置。具体而言我们选择了具有环境噪声特征的地点包括重型机械的运行和强大空调系统的存在。此外在更高海拔处风噪增加了音频数据的复杂性使检测更具挑战性并增强了系统的现实感。值得注意的是我们未包含夜间或雨天条件下收集的数据。这一决定基于以下事实无人机在夜间因其灯光而易于检测且在雨天面临运行挑战使得此类数据对我们的数据集相关性较低。V. 数据格式我们的数据集以便捷的两种广泛使用的格式提供rosbag 格式和文件系统格式。rosbag 格式中的具体数据结构如表 II 所示。Rosbag 格式Rosbag 在机器人社区中广泛使用。虽然所有测量均遵循 SI 单位但需要注意的是消息时间戳采用ros::Time格式位于header.stamp字段中。这些时间戳由 ROS 消息发布时的传感器驱动程序生成。此外激光雷达点云采用自定义格式包含每个点的单独时间戳。我们提供脚本以方便将这些点转换为标准的sensor_msgs::PointCloud2格式。文件系统格式该格式在机器学习社区中广受青睐。本质上它涉及从 rosbag 文件中提取图像、原始音频数据、点云和地面真值然后按顺序存储以便于访问和管理。为提供更清晰的说明这包括将图像保存为 PNG 格式将音频数据分解为$1$秒片段并以 numpy 格式存储将点云数据保留为 PCD 格式并将每个时间戳的 3D 位置数据保留在 python-numpy 文件中供将来参考。重要的是python-numpy 文件将会提供。VI. 传感器校准该传感器阵列涵盖多种传感模态每种都有其独特的校准挑战。为有效应对这些挑战我们采用分而治之的方法。对于立体校准我们利用 Matlab 校准工具[31]精确校准两台相机之间的内参和外参。在相机到激光雷达校准方面我们采用无目标校准方法[32]确保精确对齐。由于音频和毫米波雷达传感器与其他模态的对应关系有限校准它们更为复杂。在这些情况下我们借助 CAD 图纸建立参考点specifically 将其与顶部居中的 Livox Mid360 激光雷达对齐。考虑到这些传感器固有的复杂性及其与传统校准技术的不兼容性这种方法变得至关重要。VII. 评估与基准测试本节展示了各种基于图像和音频的 2D 检测和 3D 估计方法的基线基准测试。由于篇幅限制此处不涵盖基于激光雷达或雷达的模型但其性能和源代码将在数据集网页上提供。我们收集了超过$1700$秒的多模态 rosbag 格式数据随后将其划分为$50$个较小的序列。每个序列包含充足的视觉、激光雷达、音频和雷达数据用于识别。在这$50$个较小序列中我们将$60\%$的数据分配给训练集$20\%$给测试集剩余$20\%$给验证集。每个模型在训练参数尤其是学习率上略有不同。但需要注意的是所有模型在训练期间共享相同的批量大小batch size为$8$。我们使用平均精度均值$\text{mAP}$和帧每秒FPS测量来评估这些流行方法在我们的数据集上的 2D 检测基准性能。结果如表 III 所示。目前尚未对任何模型进行微调或剪枝以优化性能。在流行网络中Yolo 系列在大多数情况下优于其他方法如图 5 所示。Centernet 等模型在检测汽车或卡车等其他类型车辆方面表现出色但在无人机预测方面性能显著下降。这主要是因为无人机目标远小于其他车辆如图 4 所示。在 3D 位置估计方面我们对几个知名网络进行了调整以确定基于音频或视觉输入的无人机目标的 3D 位置。与 2D 检测场景类似不同情况下的学习率有所不同但我们保持一致的批量大小$8$。在评估 3D 位置估计时我们使用术语相对位置误差$e$来衡量模型输出与地面真值之间的差异。3D 位置估计的综合性能评估总结于表 IV。所有视觉模型表现出一致且略高于$0.5$米的误差表明它们能够准确估计物体尺寸并提供合理的物体距离和位置估计。然而由于背景机械噪声的严重影响基于音频的方法面临重大挑战导致误差达到$2.6$米。需要强调的是此类兼容的开源算法可用性有限导致该领域的研究范围较窄。VIII. 问题与挑战在我们的研究过程中我们遇到了一系列必须承认的重大挑战和局限性。A. 地理覆盖范围有限我们的数据收集工作受到无人机飞行可用地理区域严格限制。新加坡的监管框架要求获得土地所有者的许可且近$70\%$的区域因靠近机场和空军基地而被指定为禁飞区。因此我们在多样化环境中进行无人机实验的能力受到严重限制。为确保遵守禁止拍摄包含个人或车辆图像的当地隐私法我们的实验大多在屋顶进行。B. 传感器同步我们力求实现所有传感器的同步以提高训练数据质量。然而大多数传感器缺乏固有的同步能力。我们的经济型相机成本效益高但无法外部触发。此外音频数据采样率为$41.8\text{kHz}$与其他模态的采样率显著不同。因此在不产生高昂硬件成本的情况下实现跨所有模态的同步是一项艰巨挑战。C. 无人机变体有限我们的数据集仅包含有限数量的公开可用无人机型号数据。考虑到市场上无人机的广泛多样性我们的数据收集工作仅代表现有无人机类型的一小部分。无人机设计的巨大差异进一步复杂化了我们在所有无人机类别中汇编全面数据的能力。D. 地面真值频率与数据缺失徕卡生成的地面真值数据捕获频率仅为$5\text{Hz}$。虽然该频率满足许多应用的需求但对于需要更高时间精度的某些研究场景可能不够。此外当无人机执行急转弯或徕卡无法同时跟踪无人机所有侧面时地面真值数据偶尔会出现间隙。尽管存在这些挑战和局限性我们的研究为无人机检测、跟踪、分类和轨迹估计领域贡献了宝贵的见解和数据集。IX. 结论总之MMAUD 数据集代表了应对小型无人机带来挑战的重大进展。它专注于空中检测、无人机类型分类和轨迹估计弥合了当前空中威胁检测方法中的关键空白。MMAUD 利用包括立体视觉、激光雷达、雷达和音频阵列在内的多样化传感输入提供了独特且实用的视角。MMAUD 的一个重要亮点是依赖徕卡生成的地面真值该真值在户外实际场景中被认可具有卓越的准确性这是其他数据集无法比拟的特征。虽然我们承认在数据收集监管限制和传感器同步挑战方面存在一些局限性但 MMAUD 仍然是开发精确反无人机解决方案的宝贵资源。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2627322.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!