Extended Feature Pyramid Network for SmallObject Detection

摘要

各种尺度的特征耦合会削弱小对象的性能，本文中，我们提出了具有超高分辨率金字塔的扩展特征金字塔网络（EFPN ），专门用于小目标检测。具体来说，我们设计了一个新模块，称为特征纹理转移（FTT ），用于同时超分辨率特征和提取可信的区域细节。此外，我们设计了一个前景 - 背景平衡损失函数来缓解前景和背景的面积不平衡。

总结

设计了一个 特征纹理转移（ FTT ）新模块 ，它 用于超分辨率特征和提取可信的区域细节 。

设计了一个前景 - 背景平衡损失函数 来缓解前景和背景面积不平衡。

1、介绍

由于 CNN 重复使用池化层来提取高级语义，因此可以在 下采样过程中过滤掉小对象的像素。

利用低级特征是提取小对象信息的一种方式。在 FPN 中，如图 1 （ a) 所示，小型对象必须与中型和大型对象共享相同的特征图，而像大型对象这样的简单情况可以从合适的级别提取特征。此外，如图1(b) 所示，随着对象规模的减小，FPN 底层的检测精度和召回率显著下降。图 1 表明，在普通 FPN 检测中，跨尺度的特征融合仍然削弱了小对象检测的能力。

（ 普通的 FPN 中，跨尺度特征融合仍然削弱了小对象检测的能力 ）

补偿小物体信息损失的另一种方法是提高特征分辨率。因此， 一些超分辨率（ SR ）方法被引入到目标检 测中。

本文中，我们提 出了扩展特征金字塔网络（ EFPN ），该 网络利用具有丰富区域细节的大规模 SR 特征来 解耦中小型目标检测 。 EFPN 以专门用于小型物体检测的高分辨率水平扩展了原始 FPN 。为了降低成本，我们的扩展高分辨率特征图是由嵌入特征 SR 的 FPN-like 框架生成 。

在构建 vanilla 特征之后，所提出的特征纹理转移（ FTT ）模块首先将来自低分辨率特征的深层语义和来 自高分辨率特征参与的浅区域纹理相结合 。然后， 后续的 FPN-like 横向连接将通过量身定制的中间 CNN 特征图进一步丰富区域特征。

EFPN 的一个优点是，高分辨率特征图的生成依赖于 CNN 和 FPN 产生的原始真实特征，而不是其他类似方法中不可靠的想象。如图1(b) 所示， EFPN 中具有可信细节的扩展金字塔级别显著提高了对小物体的检测性能。

此外，我们引入了由大规模输入图像生成的特征作为监督来优化 EFPN ，并设 计了一个前景 - 背景平衡损 失函数 。

主要贡献如下：

（ 1 ）我们提出了 扩展特征金字塔网络（ EFPN ），它提高了小目标检测的性能。

（ 2 ）我们设计了一个关键的基于特征参考的 SR 模块， 称为特征纹理转移（ FTT ），为扩展的特征金字塔 赋予可信的细节 ，以实现更准确的小目标检测。

(3) 引入了一个前景 - 背景平衡损失函数 ，以引起人们对正像素的关注，缓解前景和背景的面积不平衡。

2、超分辨图像用于目标检测

一些研究将 SR 引入到物体检测中，因为小物体检测总是受益于大尺度，图像级 SR 用于存在极小物体的一些特定情况，如卫星图像和具有拥挤的图像。STDN 在 DenseNet 的顶层采用亚像素卷积来检测小对象， 同时减少网络参数 。最近 基于参考的 SR 方法具有利用参考图像的纹理或内容增强 SR 图像的能力 。受基于参考的SR 的启发，我们设计了一种新的模块来超分辨率参考下的具有可信细节的浅特征，从而生成更适合小物体检测的特征。

3、我们的方法

首先，我们 构建了一个扩展的特征金字塔 ，它专门用于底部有高分辨率特征图的小物体。具体来说，我们设计了一个名为特征纹理转移（ FTT ）的新模块，为扩展的特征金字塔生成中间特征 。此外，我们采 用了一种新的前景 - 背景平衡损失函数 来进一步加强对正像素的学习。

3.1 扩展特征金字塔网络

Vanilla FPN 通过对高级 CNN 特征图进行上采样，并通过横向连接将其与较低的特征融合， 构建了一个 4 层特征金字塔 。不同金字塔级别上的特征负责不同大小的对象， 小对象检测和中等对象检测仍然耦合在 FPN 的统一底层 P2 上，如图所示

为了缓解这个问题，提出了 EFPN 来将 vanilla 特征金字塔扩展到了新的层次 ，该层次考虑了具有更多区域细节的小目标检测。

我们 通过嵌入特征 SR 模块的 FPN-like 框架来实现扩展的特征金字塔 。该过程直接从低分辨率图像中生成高分辨率特征，以支持小目标检测。EFPN 的概述如图 2 所示。

顶部 4 个金字塔层由自上而下的路径构建，用于中等和大型对象检测。 EFPN 中的底部扩展包含图 2 中的FTT模块、自上而下的路径和紫色金字塔旨在捕获小物体的区域细节。更具体的说，在扩展中， EFPN 的 第三和第四金字塔层，分别在图 2 中用绿色和黄色层表示。在特征 SR 模块 FTT 中混合，以产生具有所选区域信息的中间特征 $P_3^ {'}$ ， 其中在图 2中由蓝色菱形表示。然后， 自上而下的路径将 $P_3^ {'}$ 与 定制的高分 辨率CNN特征图 $C_2^ {'}$ 合并，产生最终的扩展金字塔层 $P_2^ {'}$ 。我们 在 ResNet/ResNeXt stage2 中删除了一个最大池化层，并得到 $C_2^ {'}$ 作为 stage2 的输出，如表 1所示。

$C_2^ {'}$ 与原始C2共享相同的表示级别，但由于其更高的分辨率而包含更多的区域细节。

$C_2^ {'}$ 中较小的感受野也有助于更好地定位小物体，从数学上讲，所提出的EFPN中的扩展操作可以描述为：

其中

表示通过最近邻插值的双重放大。

在 EFPN 检测器中，建议 size 和金字塔级别之间的映射仍然遵循 [19] 中的方式：

这里 l 表示金字塔级别， w 和 h 表示方框建议的宽度和高度， 224 是规范的 ImageNet 预训练大小， l0 是wxh=224x224的方框方案映射到的级别目标。

3.2 FTT模块

在 基于图像参考的 SR 的启发 下，我们 设计了 FTT 模块来超分辨率特征，并同时从参考特征中提取区域纹 理。如果没有 FTT ， EFPN 的第 4 级 P2 中的噪声将直接传递到扩展金字塔级，即淹没有意义的语义。

然而，所提出的 FTT 输出 综合了上低分辨率特征中的强语义 和 下高分辨率参考特征中的关键局部细节 ，但丢弃了参考中的干扰噪声。

如图 3 所示， FTT 模块的主要输入是来自第三层 EFPN 的特征图 P3 ，参考是来自第四层 EFPN 的特征图 P2。输出 $P_3^ {'}$ 可以定义为:

其中 $E_t(\cdot )$ 表示纹理提取器成分， $E_c(\cdot )$ 表示内容提取器部分。

表示通过 sub 像素卷

积的双重放大，

表示特征C串联。内容提取器和纹理提取器都是由残差块组成的。

在主 stream 中，考虑到其效率，我们就将 sub-pixed 卷积应用于提高来自主输入 P3 的内容特征的 空间分 辨率。 sub像素卷积通过在通道维度上转移像素来增加宽度和高度维度上的像素。将卷积层生成的特征表示为 $F \in R^{H \times W\times C\times r^2}$ 。亚像素卷积中的像素混洗算子将特征重新排列为 $rH \times rW \times C$ 形状为的映射。（也就是说经过 sub-pixed 卷积的特征图，是将原特

征图的宽度和高度放大了 r 倍，通道数不变 ）

该运算在数学上可以定义为