标题:Construct Effective Geometry Aware Feature Pyramid Network for Multi-Scale Object Detection
会议:AAAI2022
论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/19932
文章目录
- Abstract
- 1. Introduction
- 2. Related Work
- 2.1. Object Detectors
- 2.2. Mapping Strategy
- 2.3. Predictor Heads
- 3. Method
- 3.1. Geometry-aware Mapping Module
- 3.2. Geometry-aware Predictor Head
- 4. Experiments
- 4.1. Dataset and Evaluation Metrics
- 4.2. Implementation Details
- 4.3. Main Results
- 4.4. Ablation Study
- 4.5. Runtime Analysis
- 5. Conclusion
Abstract
特征金字塔网络(FPN)被广泛用于发挥多尺度特征来解决目标检测中的尺度变化。然而,目前大多数FPN方法的固有缺陷导致其难以适应不同几何目标的特征。为了解决这个问题,我们在FPN中引入几何先验,以获得更具识别力的特征。本文提出了几何感知特征金字塔网络(Geometry-aware Feature Pyramid Network,GaFPN),该网络主要由新颖的几何感知映射模块(Geometry-aware Mapping Module)和几何感知预测头(Geometryaware Predictor Head)组成。几何感知映射模块是为了充分利用所有的金字塔特征,通过权重生成子网络获得更好的建议特征。权重生成子网络利用建议的几何信息为每一层的建议特征生成融合权重。几何感知预测头通过嵌入的生成网络将几何先验引入预测头,从而加强特征表示,用于分类和回归。我们的GaFPN可以很容易地扩展到其它具有特征金字塔的两阶段目标检测器和用于实例分割任务。在MS COCO数据集上,GaFPN相比于各种基线检测器显著提高了检测性能。
1. Introduction
特征金字塔网络(FPN)是一种经典且有效的多尺度目标检测方法。它首先构建一个特征金字塔,然后通过启发式引导的映射机制为每个proposal选择一个单层特征。最后,每个proposal的特征通过RoI Align层输入到预测头中。
尽管FPN大幅提升了多尺度目标检测的性能,但其潜力尚未得到充分挖掘,如图1所示。我们总结了两个潜在的改进如下:
①几何引导的建议映射机制。 目标proposal通过启发式规则分配到某个层的特征图中,如proposal的面积。虽然目标proposal的面积相似,但它们的纵横比可能存在显著差异。例如,一个1000×10的目标和一个10×1000的目标被分配到同一个特征图。该问题导致了一个严重缺陷,即基于启发式引导的最优特征可能难以获得。同时,最近的研究表明,只选择单层特征可能会产生次优结果,因为这种方式忽略了其它层未选择特征的有效信息。通过使用来自特征金字塔的多层特征的几何引导建议映射机制可以缓解这些问题。
②几何特征嵌入。 proposal的几何信息是分类和定位细化的关键先验知识。一方面,额外的几何先验特征可以促进两个语义相似的proposal的分类学习,从而容易区分它们。另一方面,回归值可能根据额外的几何先验特征动态变化。然而,经过特征映射后,每个目标proposal通过RoI Align层提取7×7个特征。然后将提取到的特征输入由全连接层组成的检测器头部进行分类和回归。经过上述过程,proposal的几何信息在很大程度上被忽略和破坏。因此,如何将几何特征嵌入到proposal的特征中以生成更准确的结果是一个亟待解决的问题。
这些改进启发我们提出几何感知特征金字塔网络(GaFPN),这是一种简单有效的特征金字塔网络,用于改进多尺度目标检测的特征表示。首先,几何感知映射模块充分利用所有金字塔特征,以获得更好的proposal特征,并通过权重生成子网络减少启发式引导映射的影响。权重生成子网络利用proposal的几何信息为不同层的每个proposal生成融合权重。其次,利用几何感知预测头,通过嵌入生成网络将几何特征引入分类和回归分支。它处理几何先验缺失问题,生成更具识别力的特征。嵌入生成网络利用proposal的几何信息为每个proposal生成几何嵌入值,然后通过乘法操作将几何嵌入值嵌入到proposal的特征中。在MS COCO数据集上,GaFPN相比于各种基线检测器都提高了检测性能。
我们的贡献有三方面:①我们系统地研究了FPN检测器。我们的研究揭示了限制检测性能的两个缺陷。②为了解决这些问题,我们提出了一个新的特征金字塔网络GaFPN,它结合了新的组件:几何感知映射模块和几何感知预测头。③我们在MS COCO上验证了所提出的配备有各种探测器、主干和任务的GaFPN,并且与基于FPN的探测器相比,它始终获得了显著的改进。
2. Related Work
2.1. Object Detectors
介绍了一些两阶段和单阶段的目标检测器。
2.2. Mapping Strategy
为每个proposal选择FPN中合适的特征是一个关键问题。FASF在训练时根据最小的实例损失层动态选择金字塔特征进行分配。PANet制定映射策略,为每个proposal选择所有金字塔级别的特征独立地输入全连接层,并通过元素级最大化操作将其融合。为了更好地挖掘不同层的特征,AugFPN根据学习到的权重为两阶段检测器融合所有层的特征。这些方法与我们的工作有一个明显的区别,即我们提出了一种几何感知策略,根据proposal的外部抽象几何信息而不是proposal本身的卷积特征来获取权重。
2.3. Predictor Heads
近年来提出了许多提高分类和定位精度的预测头。Cascade R-CNN采用不同交并比(IoU)阈值的多阶段R-CNN头,逐阶段获得更精确的结果。Fitness NMS设计子网络来预测定位概率。IoU-Net提出了一个IoU预测模块来预测每个proposal的IoU。后两种方法都想根据定位质量(IoU)来优化分类置信度,但IoU的预测比较困难,需要引入复杂的结构。另一个努力的方向是将分类和定位解耦。Double-Head R-CNN采用全连接头进行分类,卷积头进行回归。TSD将分类和定位与proposal和特征提取器解耦。与它们不同的是,我们的方法将几何特征嵌入到预测头中,以弥补RoI Align层造成的几何信息缺失。
3. Method
在这一部分,我们介绍几何感知特征金字塔网络(GaFPN)。我们的框架如图2所示。GaFPN由3个部分组成:几何感知映射模块(GMM)、几何感知预测头(GPH)和特征增强金字塔(FAP)。
首先,将backbone中的内在特征层次结构记为
{
C
2
,
C
3
,
C
4
,
C
5
}
\{C_2,C_3,C_4,C_5\}
{C2,C3,C4,C5}。然后将这些特征通过一个1×1的卷积减少到同一通道,记为
{
M
2
,
M
3
,
M
4
,
M
5
}
\{M_2,M_3,M_4,M_5\}
{M2,M3,M4,M5}。同一通道特征采用ASPP启发的特征增强和注意力机制来增强特征,构建特征增强金字塔。将新生成的特征记为
{
P
2
,
P
3
,
P
4
,
P
5
}
\{P_2,P_3,P_4,P_5\}
{P2,P3,P4,P5}。最后,将新特征输入GMM和GPH中进行分类和回归。GMM根据几何信息自适应地融合proposal的多层特征。GPH将几何信息嵌入到proposal的特征中。
3.1. Geometry-aware Mapping Module
传统的FPN中,每个proposal的特征层都是基于proposal的面积来映射的。这可能会产生次优结果。同时,其他层的特征可能有利于目标的分类或回归。这些发现启发我们探索几何引导的proposal映射机制,并利用多层特征来获得更好的proposal特征。
我们提出几何感知映射模块(GMM),它自适应地利用每个金字塔层的特征来丰富特征表示,而不是仅使用启发式指导的一个层的特征。自适应机制通过使用权重生成子网络为每一层生成权重来实现。该子网络直接将proposal的几何信息作为输入。
几何特征生成: 我们首先对每个proposal的坐标
(
x
1
,
y
1
,
x
2
,
y
2
)
(x1,y1,x2,y2)
(x1,y1,x2,y2)进行归一化,其计算公式如下:
x
1
′
=
x
1
W
,
y
1
′
=
y
1
H
,
x
2
′
=
x
2
W
,
y
2
′
=
y
2
H
x_1^{\prime}=\frac{x_1}{W},~y_1^{\prime}=\frac{y_1}{H},~x_2^{\prime}=\frac{x_2}{W},~y_2^{\prime}=\frac{y_2}{H}
x1′=Wx1, y1′=Hy1, x2′=Wx2, y2′=Hy2其中,
W
W
W和
H
H
H表示训练图像的尺寸,作为归一化项。
然后利用归一化后的坐标生成宽度、高度、长宽比(
r
r
r)和面积(
a
a
a)等额外的几何特征,计算公式如下:
w
=
x
2
′
−
x
1
′
,
h
=
y
2
′
−
y
1
′
,
r
=
w
h
,
a
=
w
×
h
w=x_2^{\prime}-x_1^{\prime},~h=y_2^{\prime}-y_1^{\prime},~r=\frac{w}{h},~a=w×h
w=x2′−x1′, h=y2′−y1′, r=hw, a=w×h最后,将这些特征concatenate在一起作为权重生成子网络的输入
X
∈
R
8
\mathbf{X}\in\mathbb{R}^8
X∈R8,其可以表示为:
X
=
C
A
T
(
w
,
h
,
r
,
a
,
x
1
′
,
y
1
′
,
x
2
′
,
y
2
′
)
\mathbf{X}=\mathrm{CAT}(w,h,r,a,x_1^{\prime},y_1^{\prime},x_2^{\prime},y_2^{\prime})
X=CAT(w,h,r,a,x1′,y1′,x2′,y2′)权重计算: 在几何特征生成阶段之后,我们为每层特征金字塔中的每个proposal计算权重。我们首先使用仅由全连接层和ReLU组成的权重生成子网络对几何特征进行变换。几何特征表示经过该变化而得到增强。然后利用变换后的特征通过sigmoid运算为不同层生成不同的权重,其定义如下:
w
=
σ
(
M
L
P
W
G
(
X
)
)
=
σ
(
δ
W
4
(
δ
W
3
(
δ
W
2
(
δ
W
1
(
X
)
)
)
)
)
\begin{align*} \mathbf{w}&=\sigma(\mathrm{MLP_{WG}}(\mathbf{X}))\\ &=\sigma(\delta\mathbf{W_4}(\delta\mathbf{W_3}(\delta\mathbf{W_2}(\delta\mathbf{W_1}(\mathbf{X}))))) \end{align*}
w=σ(MLPWG(X))=σ(δW4(δW3(δW2(δW1(X)))))其中,
δ
\delta
δ表示线性整流函数(ReLU),
σ
\sigma
σ是Sigmoid函数。
M
L
P
W
G
(
⋅
)
\mathrm{MLP_{WG}}(·)
MLPWG(⋅)是权重生成子网络。
W
1
\mathbf{W_1}
W1是维度增加层,
W
2
\mathbf{W_2}
W2、
W
3
\mathbf{W_3}
W3和
W
4
\mathbf{W_4}
W4是维度减少层。输出权重
w
=
[
w
1
,
w
2
,
w
3
,
w
4
]
∈
R
4
\mathbf{w}=[w_1,w_2,w_3,w_4]\in\mathbb{R}^4
w=[w1,w2,w3,w4]∈R4。权重生成子网络的详细结构如图3a所示。
特征聚合: 最后,我们通过对每个proposal进行自适应多层加权聚合得到一个合并特征
V
\mathbf{V}
V。将RoI Align层提取的多层proposal特征记为
{
P
2
′
,
P
3
′
,
P
4
′
,
P
5
′
}
\{P_2^{\prime},P_3^{\prime},P_4^{\prime},P_5^{\prime}\}
{P2′,P3′,P4′,P5′},合并特征计算如下:
V
=
∑
i
=
2
5
w
i
−
1
⋅
P
i
′
\mathbf{V}=\sum_{i=2}^5w_{i-1}·P_i^{\prime}
V=i=2∑5wi−1⋅Pi′其中,
V
∈
R
7
×
7
×
256
\mathbf{V}\in\mathbb{R}^{7×7×256}
V∈R7×7×256,
P
i
′
∈
R
7
×
7
×
256
P_i^{\prime}\in\mathbb{R}^{7×7×256}
Pi′∈R7×7×256。
这样,我们充分利用金字塔特征来丰富特征表示,而不是仅使用启发式引导的单层特征。GMM将刚性的启发式映射策略软化为可以通过反向传播来与检测器进行联合训练的自适应策略。
3.2. Geometry-aware Predictor Head
在FPN中,每个proposal被RoI Align层提取为固定大小7×7×256的特征,并输入到预测头。经过上述过程,几何信息在很大程度上被忽略和破坏。
为了解决这个问题,我们提出几何感知预测头(GPH),它通过嵌入生成子网络学习生成几何感知特征。几何感知特征弥补了RoI Align层导致的几何信息缺失。此外,为了缓解分类和回归共享特征的副作用,针对不同的任务生成不同的嵌入特征。
具体来说,嵌入生成子网络类似于GMM的映射权重生成子网络。上式中的几何特征
V
\mathbf{V}
V在这里作为输入
X
\mathbf{X}
X来得到嵌入特征。
嵌入值生成: 在获得几何特征后,我们首先使用嵌入生成子网络为每个proposal生成嵌入值。该子网络仅由全连接层和ReLU组成。嵌入值的定义如下:
E
=
M
L
P
E
G
(
X
)
=
W
3
(
δ
W
2
(
δ
W
1
(
X
)
)
)
\mathbf{E}=\mathrm{MLP_{EG}}(\mathbf{X})=\mathbf{W_3}(\delta\mathbf{W_2}(\delta\mathbf{W_1}(\mathbf{X})))
E=MLPEG(X)=W3(δW2(δW1(X)))其中,
δ
\delta
δ表示线性整流函数(ReLU),
M
L
P
E
G
(
⋅
)
\mathrm{MLP_{EG}}(·)
MLPEG(⋅)是嵌入生成子网络。
W
1
\mathbf{W_1}
W1是维度增加层,
W
2
\mathbf{W_2}
W2和
W
3
\mathbf{W_3}
W3是维度减少层。输出嵌入值
E
=
[
E
1
,
E
2
]
∈
R
2
\mathbf{E}=[E_1,E_2]\in\mathbb{R}^2
E=[E1,E2]∈R2
特征嵌入: 最后,结合嵌入值和来自分和回归分支的特征(
U
c
l
s
\mathbf{U_{cls}}
Ucls,
U
r
e
g
\mathbf{U_{reg}}
Ureg)来生成嵌入特征(
U
c
l
s
′
\mathbf{U_{cls}^{\prime}}
Ucls′,
U
r
e
g
′
\mathbf{U_{reg}^{\prime}}
Ureg′),计算公式如下:
U
c
l
s
′
=
E
1
⋅
U
c
l
s
,
U
r
e
g
′
=
E
2
⋅
U
r
e
g
\mathbf{U_{cls}^{\prime}}=E_1·\mathbf{U_{cls}},~\mathbf{U_{reg}^{\prime}}=E_2·\mathbf{U_{reg}}
Ucls′=E1⋅Ucls, Ureg′=E2⋅Ureg其中,
U
c
l
s
,
U
r
e
g
,
U
c
l
s
′
,
U
r
e
g
′
∈
R
1024
\mathbf{U_{cls}},\mathbf{U_{reg}},\mathbf{U_{cls}^{\prime}},\mathbf{U_{reg}^{\prime}}\in\mathbb{R}^{1024}
Ucls,Ureg,Ucls′,Ureg′∈R1024。
嵌入生成子网络的详细结构如图3b所示。值得注意的是,嵌入生成子网络没有在最后经过sigmoid激活,这与权重生成子网络不同。GPH通过反向传播来与检测器联合训练。这样一来,几何特征被嵌入到proposal特征中,丰富了特征表示,提高了分类和回归性能。
4. Experiments
4.1. Dataset and Evaluation Metrics
介绍了数据集和评价指标。
4.2. Implementation Details
介绍了实现细节。
4.3. Main Results
如表1所示,在不同主干、检测器甚至不同任务上的实验表明,GaFPN可以获得一致的性能提升。这些结果充分说明了GaFPN的鲁棒性和泛化能力。我们相信本文提出的方法也可以应用到其它计算机视觉任务中。具体的实验结论可以参照原文。
4.4. Ablation Study
各个组件的有效性,这三个部分是相辅相成的,处理不同的问题。具体的实验结论可以参照原文。
GMM模块的消融实验,具体的实验结论可以参照原文。
为了分析GMM产生的不同层的融合权重,我们基于启发式引导映射策略将COCO val2017上的proposal映射到4层。对于每个proposal,我们首先获得4个特征层对应的4个权重。然后,我们计算每层proposal的平均权重。4个金字塔层对应的结果如图4所示。我们可以观察到,原始映射到金字塔层
P
2
P_2
P2的proposal需要更多来自更高层的特征,并且需求的重要性随着金字塔层的增加而减弱。与此同时,原始映射到
P
3
−
P
5
P_3-P_5
P3−P5的proposal需要更多来自较低和较高金字塔层的特征。总而言之,来自多层的特征共同促进了每个proposal更强大的特征生成。这些结果表明来自其它层的特征也有利于分类和回归。
GPH的消融实验。通过以上分析,我们对GPH中的两个分支采用非共享特征嵌入和乘积嵌入类型。这些结果表明GPH有利于分类和回归分支产生更有识别力的特征。具体的实验结论可以参照原文。
对FPN其它变体的通用性。我们相信本文提出的方法可以用于其它类似的检测器。最后,我们在图5中展示了一些检测结果的例子,与基于FPN的基线相比,GaFPN产生了更准确的结果。具体的实验结论可以参照原文。
4.5. Runtime Analysis
GaFPN及其各个组件并没有带来太多的FLOPs、Params,推理速度也相当。具体的实验结论可以参照原文。
5. Conclusion
在本文中,我们重新审视了基于FPN的检测器的训练过程,并在模型结构方面提出了一些改进。基于这些观察,本文提出了一种新的特征金字塔网络GaFPN,用于进一步增强多尺度目标检测的特征表示。GaFPN由3个部分组成:几何感知映射模块、几何感知预测头和特征增强金字塔。通过配备这些简单但有效的组件,GaFPN在具有挑战性的MS COCO数据集上与各种检测器和任务相比带来了巨大的提升。