SFTrack：面向警务无人机的自适应多目标跟踪算法——突破小尺度高速运动目标的追踪瓶颈

【导读】

本文针对无人机（UAV）视频中目标尺寸小、运动快导致的多目标跟踪难题，提出一种更简单高效的方法。核心创新在于从低置信度检测启动跟踪（贴合无人机场景特性），并改进传统外观匹配算法以关联此类检测。在VisDrone2019、UAVDT和MOT17数据集上，性能超越当前最优方法，展现卓越鲁棒性与适应性。>>更多资讯可加入CV技术群获取了解哦~

一、引言

二、相关工作

多目标跟踪（MOT）中的目标检测

多目标跟踪中的数据关联

无人机上的多目标跟踪

千款模型+海量数据，开箱即用！

三、方法

无人机运动补偿

低置信度检测匹配

基于低置信度检测的轨迹初始化

四、数据集与评估指标

数据集

UAVDT数据修正

实现细节

无需代码，训练结果即时可见！

从实验到落地，全程高速零代码！

五、实验与结果

与先进方法的对比

无人机数据集

无人机挑战性子集评估

MOT17数据集

消融实验

六、结论

近年来，随着无人机技术的快速发展，警务系统正逐步实现从"平面防控"向"立体巡防"的转型升级。无人机凭借其高空视野广、机动性强等特点，在嫌疑人追踪、交通监控、应急处突等警务实战中发挥着不可替代的作用。然而，无人机高速运动导致的图像模糊、高空拍摄带来的目标尺度微小等问题，严重制约着多目标跟踪（MOT）系统的实战效能。

图片1.png

论文标题：

SFTrack: A Robust Scale and Motion Adaptive Algorithm for Tracking Small and Fast Moving Objects

论文链接：

https://arxiv.org/pdf/2410.20079

一、引言

多目标跟踪（MOT）在多种无人机应用中发挥着关键作用，涵盖从警方进行的实时嫌疑人跟踪到人类与无人机之间的交互。此类应用中MOT的主要目标是准确估计并追踪无人机搭载摄像头捕获的实时视频流中多个目标的轨迹。然而，UAV应用中的MOT面临独特挑战，包括无人机高速运动以及高空广角视角导致的目标物体尺寸过小。这些固有挑战可能显著影响目标跟踪性能的整体准确性。

为解决这些挑战，大多数当代MOT方法采用运动特征与基于深度学习的外观相似性特征的融合。然而，无人机动态且无约束的移动特性为传统运动特征处理技术（如卡尔曼滤波器）带来了显著障碍。此外，视角的快速变化和物体的小尺寸会给依赖外观相似性的方法带来困难，包括基于深度学习的重新识别匹配方法的应用。这主要是因为小尺寸物体经常出现低置信度检测，导致假阳性和假阴性率均较高。此外，现代基于深度学习的重新识别模块在涉及小尺度或部分遮挡物体的场景中，往往难以获取高质量的视觉特征，这主要归因于这些物体在图像中的覆盖范围受限。因此，本文提出了两个主要目标以应对这些挑战：（1）开发一种更 robust 的技术以补偿无人机的不规则运动。（2）有效管理无人机应用中低置信度检测的频繁发生，主要源于模糊图像、物体尺寸过小及遮挡问题。

图片2.png

本文做出以下贡献：

• 提出了一种能够有效处理无人机多目标跟踪固有挑战的方法，包括快速且不规则的无人机运动、小型目标以及遮挡问题。

• 引入了一种从低置信度检测结果中启动跟踪的创新策略，尤其适用于无人机场景。为管理这些低置信度检测结果，建议重新审视基于人工特征的传统外观匹配算法。

• 对方法在多个数据集上进行了全面评估，包括VisDrone2019、UAVDT和MOT17，证明了其有效性和优越性能。

• 识别并纠正了UAVDT数据集中缺失和错误的注释，这有助于更准确的评估和进一步的研究。

二、相关工作

多目标跟踪（MOT）中的目标检测

近期基于视觉的多目标跟踪系统主要采用基于检测的跟踪方法，该方法分为检测和跟踪两个步骤。该方法首先在视频帧中检测目标，然后将这些检测结果进行关联以追踪其运动轨迹。研究重点在于优化该方法的关联阶段，特别针对无人机视频的独特挑战进行优化。

多目标跟踪中的数据关联

数据关联阶段负责将检测结果与轨迹片段进行匹配。该过程通常利用运动和外观特征计算物体间的相似性，并采用匹配策略进行关联。运动特征基于运动的策略利用物体或摄像头运动信息（运动特征）实现对物体的有效跟踪。SORT 是该领域的开创性工作，采用卡尔曼滤波器预测物体位置，并将这些预测与新检测结果进行比较。Tracktor通过图像配准对齐帧来实现摄像机运动补偿。OC-SORT通过聚焦于物体中心调整，对传统卡尔曼滤波器方法进行改进，在不规则运动场景中实现了更优的跟踪性能。BoTSOR提出利用基于特征点跟踪，摄像头运动补偿来校正卡尔曼滤波器预测的边界框位置。然而，先前研究在处理无人机视频中的大量运动时常显不足。本研究通过引入一种简单高效的无人机专用运动补偿技术，解决了这一问题，从而提升跟踪精度并缓解边界框失真。

无人机上的多目标跟踪

在无人机视频中的多目标跟踪（MOT）中，由于目标尺寸较小且图像模糊，会面临独特的挑战。因此，近年来出现了如VisDrone等竞赛，推动了针对无人机特定场景的专用方法的发展。V-IOU Tracker在缺乏检测结果时通过视觉线索提升跟踪性能。HMTT 采用分层架构并集成重新识别子网络，而GIAOTracker 引入NSA卡尔曼滤波器，该滤波器在状态更新过程中调整噪声尺度，并采用多种后处理方法。相比之下，UAVMOT和FOLT提供在线跟踪解决方案。UAVMOT 采用自适应运动滤波器应对复杂场景，而 FOLT 则利用光流跟踪小型物体。与这些主要针对无人机场景优化运动跟踪的方法不同，模型框架通过整合运动和外观线索的改进，以及匹配策略，构建了一个更准确、更健壮的跟踪系统，以应对无人机视频中复杂环境的挑战。

如果你也想要使用模型进行训练或改进，Coovally——新一代AI开发平台，为研究者和产业开发者提供极简高效的AI训练与优化体验！Coovally支持计算机视觉全任务类型，包括目标检测、文字识别、实例分割并且即将推出关键点检测、多模态3D检测、目标追踪等全新任务类型。

千款模型+海量数据，开箱即用！

平台汇聚国内外开源社区超1000+热门模型，覆盖YOLO系列、Transformer、ResNet等主流视觉算法。同时集成300+公开数据集，涵盖图像分类、目标检测、语义分割等场景，一键下载即可投入训练，彻底告别“找模型、配环境、改代码”的繁琐流程！

三、方法

本节介绍跟踪策略 SF-Track（小型快速移动物体跟踪），旨在解决无人机应用中低置信度检测频繁出现的问题。与先前方法采取的保守策略（仅从高置信度检测结果开始跟踪）不同，主动利用低置信度检测结果作为跟踪起点。此外，通过重新采用传统外观匹配算法（如颜色直方图相似度和缩放图像均方误差）进行数据关联，进一步提升跟踪精度。采用了一种专为无人机视频中不规则和快速运动设计的运动补偿技术。

方法细节遵循算法1中的步骤。此跟踪算法以视频序列V为输入，配合物体检测器Det，其参数包括：检测置信度阈值τ和低置信度检测跟踪阈值ρ。输出结果为一组轨迹集T，每个轨迹包含跨帧的边界框坐标，同时保持物体身份的连续性。

该过程首先使用目标检测器预测边界框和置信度分数。随后，类似于BYTE ，我们根据分数阈值τ将检测结果分为高置信度Dhigh和低置信度Dlow两组（参见算法1的第1-12行）。

图片3.png

无人机运动补偿

在分离低分值和高分值检测框后，我们采用一种增强的运动补偿算法，该算法融入了一个简单而有效的想法，灵感来源于Aharon等人的方法。虽然传统的运动补偿方法有效，但在低空无人机场景中，由于边界框比例失真引起的错误，它往往会失效。我们的解决方案是一个直接的调整，即保持边界框比例。为实现这一目标，我们通过提取特征点并利用稀疏光流跟踪这些特征点，计算捕获相机运动的仿射变换矩阵Mk。该矩阵包含缩放、旋转和平移分量，指导边界框的变换。随后，我们使用卡尔曼滤波预测更新轨迹状态向量T，并将Mk应用于该更新后的状态向量。此外，为防止该过程中边界框比例发生显著失真，我们对Mk中的缩放因子施加约束，具体选择x轴与y轴中较大的缩放因子，并将其均匀应用于两轴。此方法可在帧间保持边界框比例的一致性，即使在低空飞行时无人机摄像头发生剧烈运动时亦然（图2）。

图片4.png

在补偿无人机运动后，我们首先使用Re-ID特征的交并比（IoU）和余弦相似度将所有轨迹T与高置信度检测Dhigh进行关联。基于这些指标的乘积，采用匈牙利算法进行关联。未匹配的高置信度检测形成集合Dhigh remain，剩余轨迹构成集合Tremain（见算法1的第20-23行）。

低置信度检测匹配

在完成初始关联后，系统会对剩余轨迹集合T_remain与低置信度检测集合D_low进行二次关联。与第一轮采用基于深度学习的Re-ID特征不同，本轮关联针对低置信度检测提出使用传统手工设计的表观特征（参见算法1第24-27行）。具体而言，我们采用颜色直方图相似度和缩放图像均方误差（MSE）作为表观线索，通过匈牙利算法建立关联关系，该关联依赖三个关键值的乘积：交并比（IoU）、颜色直方图相似度以及缩放图像MSE。

颜色直方图能有效捕捉图像中物体的颜色分布特征。我们将每个颜色通道（R、G、B）的强度值均匀划分为8个区间（0-31、32-63、...、224-255），并统计像素颜色值的出现频率。颜色直方图相似度通过巴氏距离[31]计算。此外，采用缩放图像MSE衡量图像差异度：首先将边界框裁剪的图像缩放到统一尺寸以确保尺度无关性，随后计算两幅图像的MSE值。为将MSE转换为0-1范围的相似度分数，我们用1减去归一化后的MSE值。

该设计的动机源于深度学习方法（包括Re-ID）的局限性——这些方法在低分辨率或遮挡场景下表现欠佳，因其倾向于聚焦前景物体而可能忽略背景中的目标物体。相比之下，传统匹配算法（如颜色直方图相似度和缩放图像MSE）会考虑完整图像信息，不受遮挡影响。因此，这些方法在遮挡和低分辨率场景中展现出更优性能。如图3所示，我们的低置信度检测关联策略在低分辨率和遮挡情况下显著优于基于深度学习的方法。

图片5.png

完成低置信度检测匹配阶段后，任何在高/低置信度检测匹配阶段均未关联成功的轨迹将从跟踪池中移除（见算法1第28-29行）。此处我们参考BYTE方法的设计，为轨迹设置30帧的宽限期——若连续30帧未能匹配成功才予以删除，该机制能有效避免因短暂遮挡或检测失败导致的轨迹误终止。

基于低置信度检测的轨迹初始化

与BYTE等先前方法不同，我们提出创新策略：不仅从未匹配的高置信度检测（D_high_remain）初始化新轨迹，还允许从低置信度检测初始化（见算法1第30-39行）。然而，直接初始化低置信度检测轨迹会引入冗余、非必要甚至干扰性的物体候选目标。

为解决该问题，我们通过Re-ID特征计算低置信度检测与同类别高置信度检测的表观相似度，将此过程作为过滤机制：仅当未匹配低置信度检测（D_low_remain）与高置信度检测的相似度超过预设阈值ρ时，才允许其初始化新轨迹。这种双重验证机制提升了低置信度检测的可靠性，既改善了对小尺度物体的跟踪效果，也增强了系统的整体性能。

四、数据集与评估指标

本研究在三个数据集上进行实验：两个无人机专用数据集VisDrone2019和UAVDT，以及通用数据集MOT17。评估采用CLEAR指标，包括多目标跟踪准确率（MOTA）、误报数（FP）、漏报数（FN）和ID切换次数（IDs）。

数据集

VisDrone2019包含五项任务：图像目标检测、视频目标检测、单目标跟踪、多目标跟踪（MOT）及无人机视频人群计数。本文专注于该数据集的MOT任务，其训练集含56个序列、验证集7个序列、测试开发集17个序列。为公平对比，我们限定五类目标：行人、轿车、厢式车、卡车和巴士，与文献的类别保持一致。

UAVDT是无人机检测与跟踪基准数据集，提供30个训练序列和20个测试序列，仅针对MOT任务中的车辆跟踪。该数据集独特之处在于标注了环境属性（如天气、高度和摄像机视角），涵盖多样化的采集条件。

MOT17是多目标跟踪领域的权威数据集，覆盖行人、车辆等动态目标的丰富城市场景。我们遵循文献的协议，将训练集均分为训练与验证两部分，并仅针对行人类别开展MOT任务。这是本研究中唯一的非无人机数据集。

UAVDT数据修正

研究发现UAVDT存在显著标注错误（如图4所示）：部分目标缺失标注，大量标注框在目标出现前或消失后仍持续存在。为提升研究准确性，我们对4721帧图像进行标注修正，生成"Refined UAVDT"版本。该版本新增43,981个标注框（总量从340,906增至384,887）和55条轨迹。修正后的数据集将公开供后续研究使用。

图片6.png

实现细节

实验平台配置Intel Core i9-10900X @ 3.70GHz处理器和NVIDIA GeForce RTX 3090显卡。采用COCO数据集预训练的YOLOX检测器：

VisDrone2019/UAVDT实验：在各自训练集上训练，输入分辨率1920×1080（遵循[28]协议）
MOT17实验：使用CrowdHuman和MOT17训练集前半部分训练，在后半部分验证集测试，输入分辨率1440×800。

无需代码，训练结果即时可见！

在Coovally平台上，上传数据集、选择模型、启动训练无需代码操作，训练结果实时可视化，准确率、损失曲线、预测效果一目了然。无需等待，结果即训即看，助你快速验证算法性能！

从实验到落地，全程高速零代码！

无论是学术研究还是工业级应用，Coovally均提供云端一体化服务：

免环境配置：直接调用预置框架（PyTorch、TensorFlow等）；
免复杂参数调整：内置自动化训练流程，小白也能轻松上手；
高性能算力支持：分布式训练加速，快速产出可用模型；
无缝部署：训练完成的模型可直接导出，或通过API接入业务系统。

！！点击下方链接，立即体验Coovally！！

平台链接：https://www.coovally.com

无论你是算法新手还是资深工程师，Coovally以极简操作与强大生态，助你跳过技术鸿沟，专注创新与落地。访问官网，开启你的零代码AI开发之旅！

五、实验与结果

与先进方法的对比

我们在VisDrone2019、UAVDT和MOT17三个数据集上与其他主流关联方法进行了对比。需说明的是，UAVMOT和FOLT并非严格意义上的数据关联方法，因此无法在完全相同的环境下评估。但我们参考了其原始论文的评估协议，并尽量在目标类别、输入分辨率等设置上保持一致。

无人机数据集

在无人机数据集上，SFTrack在多数指标上显著领先。例如：在VisDrone2019上，我们的MOTA指标比最优的ByteTrack提升4.9%，IDF1分数比当前最佳FOLT提高5.2%。但该方法存在误报数（FP）增加与漏报数（FN）减少的权衡，这源于我们主动利用低置信度检测并使用传统表观匹配算法的策略。值得注意的是，相比现有方法，SFTrack展现出更均衡的跟踪性能。且在实际场景中，避免漏跟目标通常比短暂跟踪非目标对象更为重要。