【论文解读】Deformable DETR | Deformable Transformers for End-to-End Object Detection

news2026/2/22 4:38:39

论文地址：https://arxiv.org/pdf/2010.04159
代码地址：https://github.com/fundamentalvision/Deformable-DETR

摘要

DETR最近被提出，旨在消除物体检测中许多手工设计的组件的需求，同时展示出良好的性能。然而，由于Transformer注意力模块在处理图像特征图方面的限制，它存在收敛速度慢和特征空间分辨率有限的问题。为了缓解这些问题，本研究提出了Deformable DETR，其注意力模块仅关注参考点周围的一小部分关键采样点。Deformable DETR能够以比DETR少10倍的训练周期实现更好的性能（尤其是在小物体上）。在COCO基准上的大量实验证明了本研究方法的有效性。

引言

现代目标检测器通常依赖于手工设计的组件，如anchor生成、基于规则的训练目标分配和非极大值抑制（NMS）后处理，这使得它们并非完全端到端。为了解决这个问题，DETR被提出，它通过结合卷积神经网络（CNN）和Transformer编码器-解码器，构建了第一个完全端到端的目标检测器，并在性能上具有竞争力。DETR利用Transformer强大的关系建模能力来替代手工设计的规则，并在精心设计的训练信号下工作。

尽管DETR的设计和性能引人关注，但它也存在一些问题。首先，DETR需要比现有目标检测器更长的训练周期才能收敛。例如，在COCO基准测试中，DETR需要500个epoch才能收敛，这比Faster R-CNN慢10到20倍。其次，DETR在检测小目标时的性能相对较低。现代目标检测器通常利用多尺度特征，在高分辨率特征图上检测小目标。然而，高分辨率特征图会导致DETR无法接受的复杂度。这些问题主要归因于Transformer组件在处理图像特征图方面的不足。在初始化时，注意力模块几乎对特征图中的所有像素赋予均匀的注意力权重，因此需要长时间的训练才能使注意力权重学习到聚焦于稀疏且有意义的位置。此外，Transformer编码器中注意力权重的计算相对于像素数量是二次方的，因此处理高分辨率特征图的计算和内存复杂度非常高。

为了解决上述问题，本研究提出了Deformable DETR。该方法结合了可变形卷积的稀疏空间采样和Transformer的关系建模能力。本研究提出了可变形注意力模块，该模块只关注参考点周围的一小部分关键采样点，作为从所有特征图像素中筛选出显著关键元素的一种预处理方式。该模块可以自然地扩展到聚合多尺度特征，而无需FPN的帮助。在Deformable DETR中，本研究利用多尺度可变形注意力模块来替代Transformer注意力模块，以处理特征图。

Deformable DETR的快速收敛以及计算和内存效率为本研究探索各种端到端目标检测器变体提供了可能。本研究探索了一种简单有效的迭代边界框细化机制，以提高检测性能。此外，本研究还尝试了一种两阶段Deformable DETR，其中区域提议也由Deformable DETR的变体生成，并进一步馈送到解码器以进行迭代边界框细化。

论文创新点

本研究提出了一种名为Deformable DETR的新型端到端目标检测器，旨在解决DETR在收敛速度慢和特征空间分辨率受限方面的问题。DETR在目标检测领域取得了显著进展，但其Transformer注意力模块在处理图像特征图时存在局限性，导致训练缓慢且对小目标检测性能不佳。为了克服这些限制，本研究做出了以下创新：

💡 可变形注意力模块（Deformable Attention Module）： 💡
- 本研究设计了一种新的注意力机制，即Deformable Attention Module。
- 与传统Transformer的注意力机制不同，该模块仅关注参考点周围的一小部分关键采样点，从而显著减少了计算量和内存需求。
- 这种稀疏空间采样的方式借鉴了可变形卷积的思想，使得模型能够更有效地处理图像特征图，加速收敛过程，并提升对小目标的检测能力。
🔍 多尺度可变形注意力模块（Multi-scale Deformable Attention Module）： 🔍
- 为了更好地适应不同尺度上的目标检测，本研究将Deformable Attention Module扩展到多尺度特征图。
- 该模块能够自然地聚合来自不同尺度特征图的信息，无需借助传统的特征金字塔网络（FPN）。
- 通过在多个尺度上进行可变形采样，模型能够更全面地捕捉目标的上下文信息，进一步提升检测性能。
⚙️ 可变形Transformer编码器（Deformable Transformer Encoder）： ⚙️
- 本研究将DETR中的Transformer注意力模块替换为本研究提出的多尺度可变形注意力模块。
- 编码器的输入和输出均为多尺度特征图，且分辨率相同。
- 这种设计使得编码器能够有效地处理多尺度特征，并提取出更具代表性的特征表示。
📈 迭代边界框优化（Iterative Bounding Box Refinement）： 📈
- 本研究探索了一种简单有效的迭代边界框优化机制，以进一步提高检测性能。
- 通过在解码器的每一层逐步优化边界框的预测结果，模型能够更准确地定位目标，并获得更精确的检测结果。
🚀 双阶段Deformable DETR（Two-Stage Deformable DETR）： 🚀
- 为了进一步提升性能，本研究尝试了一种双阶段的Deformable DETR。
- 第一阶段生成区域提议，第二阶段利用解码器对提议进行迭代优化。
- 这种双阶段方法借鉴了传统目标检测器的思想，并将其与Deformable DETR相结合，从而进一步提高了检测精度。