Generalized Mask-aware IoU for Anchor Assignment for Real-time Instance Segmentation

Generalized Mask-aware IoU for Anchor Assignment for Real-time Instance Segmentation—面向实时实例分割的锚点分配方法

news2026/3/30 7:55:09

《广义掩膜感知IoU面向实时实例分割的锚点分配方法》主要研究并解决实时实例分割任务中锚点分配不准确的问题。其核心创新在于提出了一种新的度量标准——广义掩膜感知交并比并将其应用于锚点的正负样本分配从而显著提升了模型的性能与效率。以下是该论文主要研究内容的全面总结与概括1. 研究背景与问题锚点机制在基于锚点的实例分割方法如YOLACT中需要将大量的预定义锚点框分配给图像中的真实目标。传统方法的缺陷现有的分配方法如固定IoU阈值或ATSS主要依赖边界框之间的IoU。然而IoU只考虑框的面积重叠忽略了目标的形状信息即分割掩膜。这会导致两种反直觉的情况IoU很高但锚点只覆盖了目标的一小部分像素实际上应该是低质量的锚点。IoU很低但锚点却覆盖了目标的大部分有效像素实际上可能是高质量的锚点。观察发现作者通过引入MOB比率进行分析发现锚点覆盖的掩膜像素比例直接影响模型的损失值而传统IoU无法捕捉这一差异。2. 核心贡献GmaIoU为了解决上述问题作者提出了广义掩膜感知交并比。这是一种新的接近度度量在计算锚点与真实目标的重叠时不仅考虑边界框还利用了已有的真实分割掩膜。广义性GmaIoU定义了一个多边形P使其成为一个通用公式当 PB 时GmaIoU退化为作者之前提出的maIoU结合了边界框和掩膜。当 PM 时GmaIoU退化为锚点框与掩膜之间的IoU。优势通过加权计算赋予掩膜内像素更高权重忽略掩膜外像素GmaIoU能更准确地反映锚点框实际覆盖目标形状的好坏。3. 技术创新高效计算与集成高效计算算法由于掩膜形状不规则且锚点数量巨大如19K/图直接暴力计算GmaIoU会带来极高的训练耗时。作者利用积分图像技术设计了一种高效算法使得计算GmaIoU的速度与传统IoU几乎相当从41.89秒/迭代降至0.59秒/迭代使得该方法具备了实用性。集成到ATSS作者将GmaIoU替换传统的IoU集成到先进的动态分配器ATSS中。在ATSS的自适应阈值计算步骤中使用GmaIoU代替IoU来选择正负样本。4. 实验与性能提升通过在YOLACT模型上进行大量实验论文验证了GmaIoU的有效性消融实验结果使用GmaIoU特别是 PM 配置的ATSS分配器在不同图像尺度400 550 700上均持续优于使用传统IoU、DIoU、GIoU的ATSS掩膜AP提升约1.0-1.5个点。相比YOLACT原始的固定IoU阈值分配器掩膜AP提升约1.5-2.0个点。效率提升GmaIoU分配器使得高质量的正负样本筛选更精准从而允许模型使用更少的锚点从约19.2K降至约6.4K。这使得YOLACT的推理速度提升了25%从28 fps提升至32 fps。最终模型 GmaYOLACT基于GmaIoU带来的效率优势作者进一步集成了Carafe-FPN、可变形卷积、RS-Loss等改进策略构建了GmaYOLACT。成果GmaYOLACT-550相比基线YOLACT-550掩膜AP提升了7.1个点GmaYOLACT-700在COCO test-dev上达到了38.7的掩膜AP和25 fps的帧率树立了实时实例分割领域的新SOTA水平。这篇论文的核心在于将分割掩膜的信息反向注入到锚点分配阶段。作者提出的GmaIoU通过一种高效的方式在训练时就考虑到目标的形状从而让模型从一开始就能学习到更高质量的锚点最终实现了既快又准的实时实例分割。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示摘要本文提出了广义掩膜感知交并比GmaIoU作为一种新的度量标准用于在训练实例分割方法时对锚点框进行正负样本分配。与仅考虑锚点框和真实边界框接近程度的传统IoU度量或其变体不同GmaIoU额外考虑了分割掩膜。这使得GmaIoU能够在训练期间提供更精确的监督。我们通过在前沿的SOTA分配器ATSS中将IoU替换为我们的GmaIoU来证明其有效性。然后我们使用基于GmaIoU的ATSS分配器训练实时实例分割方法YOLACT。由此产生的基于GmaIoU分配器的YOLACT在掩膜AP上i比使用IoU的ATSS高出~1.0-1.5ii在不同图像尺寸下比使用固定IoU阈值的分配器的YOLACT高出~1.5-2iii由于使用了更少的锚点推理时间减少了25%。利用这一效率优势我们进一步设计了GmaYOLACT一个比YOLACT更快且掩膜AP高出7个点、更精确的检测器。1. 引言实例分割是一个视觉检测问题其目标是通过使用像素级分割掩膜来定位对象实例从而检测并对它们进行分类。实例分割任务固有地包含了目标检测任务[1, 2, 3, 4]后者通过使用边界框表示来勾勒对象的空间位置从而对图像中的对象进行分类。为了处理出现在不同位置、尺度和数量的对象的多样性实例分割方法[5, 6, 7, 8]通常采用一组密集的对象假设称为锚点以确保对对象的最大覆盖率。锚点通常由不同大小和宽高比的框表示。为了最大化覆盖率需要将大量锚点例如对于尺寸为550×550的图像YOLACT[5]中约有∼20k个分配给真实边界框。被分配给真实边界框的锚点被认为是正样本而未分配给任何真实边界框的锚点被称为负样本。将锚点与真实边界框匹配的过程称为分配问题[9, 10]。尽管IoU很流行但它有一个明显的缺点锚点框和真实边界框之间的IoU仅取决于它们的面积从而忽略了框内对象的形状例如由分割掩膜提供的形状。这可能导致由于反直觉的低或高IoU分数而产生不合需要的分配。例如IoU可能很高意味着是正锚点但锚点框中只包含了对象的一小部分或者IoU可能很低意味着是负锚点但锚点框中包含了对象的大部分。图1展示了此类示例这些示例是由于对象具有非传统姿态、遮挡以及具有 articulated 或细长部分的对象而产生的。正如我们将在分析中展示的第3.1节图3这样的例子往往会产生相对较大的损失值并对训练产生不利影响。在本文中我们引入了广义掩膜感知IoUGmaIoU作为一种用于实例分割锚点分配的新颖度量。GmaIoU基于利用对象的真实掩膜这些掩膜通常仅用于通过损失计算进行监督。具体来说与传统的IoU仅比较锚点框与真实边界框不同GmaIoU将锚点框与真实边界框和掩膜对进行比较。在IoU中框内的所有像素具有同等重要性而在GmaIoU中真实掩膜像素被提升。因此GmaIoU产生一个与对象形状更一致的分配/接近度分数图1。由于考虑到大量的锚点朴素计算GmaIoU因密集的像素级比较而不切实际我们提出了一种高效算法其训练时间与使用基于IoU的传统分配方法相似。使用基于GmaIoU的ATSS分配器的YOLACT一种流行的实例分割方法持续地改进了基于IoU的基线ATSS分配器约∼1∼1个掩膜AP以及标准YOLACT即固定IoU阈值约∼2∼2个掩膜AP同时推理时间与YOLACT相当。本文在三个关键方面扩展了我们之前的工作[14]。首先我们重新阐述了我们的新颖掩膜感知IoU定义以适用于更一般的情况在任意多边形即真实掩膜和一个框之间。由此我们获得了GmaIoU它允许在使用额外的框信息(PB)或仅使用掩膜信息(PM)之间切换。我们证明了在掩膜AP方面PM的情况比最初提出的maIoU [14]提供了持续的增益后者在当前广义公式中对应于PB的特殊情况。其次我们推广了在训练期间高效考虑真实掩膜的算法使得GmaIoU可以在其两种特殊情况(PB或PM下在训练期间被有效地纳入分配方法。我们注意到我们的算法对于在这两种情况下利用真实掩膜至关重要因为由于运行时间爆炸暴力计算实际上无法采用。最后我们改进了之前的maYOLACT检测器并通过整合最近提出的改进策略开发了GmaYOLACT。由此产生的GmaYOLACT检测器以与基线YOLACT相似的效率实时执行实例分割但在分割和检测性能方面分别带来了显著的∼7个掩膜AP和∼10个边界框AP的提升。我们还注意到GmaYOLACT检测器在我们之前的工作中比maYOLACT检测器在掩膜AP上高出∼1在边界框AP上高出∼2.5这证明了我们在本文修订版中设计的有效性。图1说明广义掩膜感知IoUGmaIoU必要性的示例。绿色框表示真实边界框红色框是训练期间产生的实际锚点。左侧面板展示了锚点覆盖了对象像素的显著部分但IoU较低即低于YOLACT的正阈值0.50的情况。对于这些情况GmaIoU高于IoU可能纠正分配。右侧面板展示了锚点仅覆盖对象像素的一小部分但IoU较高因此锚点被视为正样本的情况。maIoU低于IoU可能纠正分配。图像来自COCO [11]GmaIoU按第3节所述使用PM计算。表1IoU变体、它们的输入和主要用途。IoU变体基于两个输入输入1和输入2的属性prop.分配一个接近度度量。在实践中现有的变体根据相同的属性即框或掩膜比较输入。我们的广义掩膜感知IoUGmaIoU可以独特地将一个框与一个框加一个掩膜进行比较。通过这种方式GmaIoU将锚点即只有框与真实数据框和掩膜进行比较以提供更好的锚点分配。*GIoU也被用作性能度量。IoU变体输入1属性输入2属性主要用途按论文提出时框掩膜框掩膜掩膜IoU [11, 15]-✓-✓性能度量边界IoU [16]-✓-✓性能度量广义IoU [17]✓-✓-损失函数*距离IoU [18]✓-✓-损失函数完全IoU [19]✓-✓-损失函数广义掩膜感知IoU (本文)✓✓✓-分配器2. 相关工作2.1. 深度实例分割基于深度学习的实例分割研究通常采用检测然后分割的方法其灵感来源于并增强了深度目标检测方法。例如著名的实例分割模型Mask R-CNN [6]及其变体[7, 20]通过添加用于掩膜预测的新分支扩展了Faster R-CNN [21]一种著名的两阶段目标检测器。掩膜预测分支与分类和定位分支同时训练。多年来在单阶段目标检测器上也引入了类似的扩展以获得单阶段实例分割网络。例子包括YOLACT [5]和YOLACT [8]它们基于类似YOLO的架构PolarMask [22]和PolarMask [23]它们扩展了FCOS [24]用于实例分割。另一种方法是将实例分割直接表述为一个实例分类问题如SOLO变体[25, 26]所提出的那样。在这种方法中网格中的每个单元并行地生成一个实例掩膜并预测一个对象类别。另一种方法是依赖transformer并预测一组稀疏的实例分割掩膜而无需使用NMS [27, 28, 29]。我们注意到在这项工作中我们专注于基于锚点的实例分割方法因此这些替代方法不在我们的范围内。2.2. 实例分割中的锚点分配2.3. 目标检测中的自适应锚点分配方法近期的研究表明基于锚点分布来确定锚点的正负标签比使用固定的IoU阈值效果更好。一项突出的研究是ATSS [9]其中使用具有最高IoU值的top-k锚点为每个真实边界框确定IoU阈值更多关于ATSS的细节见第3.4节。另一个例子是PAA [10]其中将高斯混合模型拟合到广义IoU值上以获得每个真实边界框的正负样本分布。Fu等人提出了一种动态锚点分配策略[31]该策略使用基于高斯概率分布的模糊相似度度量GPM和自适应动态锚点挖掘策略ADAS来改进小目标检测。GPM更准确地度量小边界框与预定义锚点之间的相似性而ADAS动态调整标签分配以更好地匹配图像中的对象分布。Li等人[13]采用了类似的方法根据锚点的清洁度动态标记锚点Ke等人[32]则将锚点选择公式化为多实例学习问题。2.4. 其他IoU变体IoU是量化形状之间重叠的有用几何度量多年来IoU及其变体在文献中被广泛用于不同目的——参见表1的比较总结。该表显示IoU不仅可以应用于框还可以应用于边界和掩膜作为重叠度量。此外我们看到IoU或其具有不同归一化形式的变体如广义IoU [17]、距离IoU [18]、完全IoU [19]可以用作训练目标检测器定位分支的损失函数。与我们贡献最相关的IoU变体即掩膜感知IoU是掩膜IoU [11, 15]它也依赖于并使用掩膜。与掩膜感知IoU相反掩膜IoU旨在性能评估期间度量两个掩膜即预测掩膜和真实掩膜之间的相似性。边界IoU [16]类似因为它考虑对象边界周围的薄掩膜来计算两个形状之间的边界级相似性。尽管这些度量在各自的任务中取得了有希望的增益但掩膜感知IoU具有独特的差异首先掩膜IoU和边界IoU仅度量两个掩膜之间的相似性因此它们无法将边界框与该框内的另一个框和掩膜进行比较。其次其他IoU度量旨在仅量化框之间的相似性因此它们不考虑形状级别的重叠。此外它们主要被用作损失函数而不是锚点分配标准。2.5. 比较总结我们上述对相关工作的覆盖指出了基于锚点的实例分割方法中的两个主要空白i它们使用IoU作为标记锚点的主要标准ii它们依赖固定的IoU阈值。为了解决第一个限制我们引入了GmaIoU这是第一个在评估锚点框与真实边界框的重叠时考虑真实掩膜的IoU度量——参见表1与现有度量的比较。至于第二个限制我们将我们的GmaIoU整合到ATSS [9]的动态分配策略中该策略已在深度目标检测中提供了显著的增益。3. 方法论现有的锚点分配机制严重依赖于锚点与真实边界框之间的传统IoU从而有效地忽略了对象的形状。在此在第3.1节中我们首先证明在具有相似框级IoU的锚点中锚点内对象的形状对学习有影响而现有的基于IoU的锚点分配机制完全忽略了这一点。为了解决这一差距我们在第3.2节中设计了广义掩膜感知交并比GmaIoU作为一种考虑真实掩膜的IoU变体这些掩膜已经可用于监督实例分割方法并使用GmaIoU将锚点分配给真实边界框。朴素地计算GmaIoU需要在每次训练迭代中处理大量掩膜这在处理时间上是低效的。为了克服这一点我们在第3.3节中提出了一种算法以显著减少GmaIoU对训练时间的影响。因此得到的GmaIoU可以被现有的锚点分配方法高效使用我们在第3.4节中将其作为前沿的锚点分配策略整合到ATSS [9]中。3.1. 掩膜框比及其观察在本节中我们证明锚点内对象的形状通常被传统IoU忽略对分割模型预测该锚点的好坏程度有影响。这样的分析需要量化锚点在真实掩膜像素方面的密集程度。因此我们首先引入一个简单但直观的度量称为掩膜框比MOB。广义上讲在一个框和一个掩膜之间度量的掩膜框比MOB是落在该框内的掩膜像素的比例。更正式地首先利用我们的MOB比率我们证明落入锚点的对象形状对分割质量有影响。为此我们采用YOLACT一种基于锚点的实时实例分割方法使用ResNet-50特征提取器。具体来说在推理期间对于每个锚点YOLACT预测一个分类分数、一个回归后的框和一个分割掩膜结合这些输出使得模型能够为每个输入锚点提供一个带有分类标签的分割掩膜。在训练期间如果一个锚点与一个对象匹配即它成为一个正锚点则会针对所有三个子任务分类、回归、和分割为该锚点估计损失。如果锚点被视为负样本它仅对分类损失有贡献。考虑到这些任务和锚点的标签我们想了解具有相似IoU的锚点内部的掩膜像素是否对预测质量有影响。因此我们将收敛的YOLACT应用于COCO验证集中的图像并绘制负锚点相对于MOB比率的平均分类损失值IoU在[0.30−0.50]之间在图2(a)中以及正锚点相对于MOB比率的所有任务的平均损失值IoU在[0.50−0.70]之间在图2(b)中这两者使我们能够做出以下关键观察使我们能够做出以下关键观察观察1.对于正锚点和负锚点具有相似IoU的锚点的损失值在所有任务中都受到MOB比率变化的影响。具体来说对于负锚点损失随着MOB的增加而增加图2(a)。然而对于正锚点情况正好相反图2(b)。此外在所有情况下具有较大损失的锚点数量都在数千的量级图2(c)。这些结果表明模型对于某个锚点的误差与该锚点覆盖的掩膜像素比例有关而传统的基于IoU的分配器完全忽略了这一点。接下来我们对真实边界框进行类似的分析图3(a)这引出了我们的第二个观察。观察2.与锚点类似真实边界框的MOB比率也存在显著变化。值得注意的是相当大比例的真实边界框具有较低的MOB比率例如对于30%的真实边界框MOB比率小于0.50。总而言之真实边界框产生的MOB比率变化很大而传统的基于IoU的分配方法无法捕捉到这一点因为它们没有利用掩膜。因此存在一种考虑对象掩膜的替代IoU度量的空间。图2ab对于在COCO minimal上训练的YOLACT具有相似IoU负样本IoU在[0.30−0.50]之间正样本IoU在[0.50−0.70]之间的负锚点a和正锚点b在不同MOB比率下的损失值均值和标准差。红线表示标准差。注意当MOB比率增加时负样本的损失值增加然而对于正样本所有三个子任务Cls.分类Segm.分割Reg.回归的损失值趋于减少。c每个MOB比率的锚点数量数量级为数千。3.2. 广义掩膜感知交并比直觉.广义掩膜感知IoUGmaIoU背后的主要直觉是在计算锚点与真实对象之间的重叠时考虑真实掩膜。随后这种接近度被用于将锚点分配给真实对象这对应于将它们标记为正样本或负样本。特别是如果锚点框包含更多的掩膜上像素那么由我们的GmaIoU度量的分配分数将更高。在这个度量的初始版本中称为掩膜感知IoUmaIoU[14]我们通过定义真实边界框的能量为其边界框的面积即∣B∣并将框BB中掩膜外像素的贡献均匀地分布在掩膜上像素上来实现这一点。在这里为了推广我们改为假设每个对象的某个多边形PP包含其能量即∣P∣。正如我们将讨论的这个视角不仅使我们能够公式化maIoU还能够公式化一个框和一个掩膜之间的IoU从而增加了我们方法的泛化能力。这两种度量之间比较的直观解释如推论1中形式化证明的如图4(c)所示我们可以看到GmaIoU的两种不同设置对应于两种不同的接近度度量。GmaIoU的这种灵活性使我们能够研究如何考虑真实掩膜以将锚点分配给真实边界框。3.3. 利用掩膜进行分配的挑战及GmaIoU的高效计算算法3.4. 将GmaIoU整合到ATSS分配器中自适应训练样本选择ATSS[9]是目标检测器中常用的一种前沿锚点分配程序。与使用固定IoU分配器相比其优点包括iATSS在目标检测器中产生更好的性能ii广义上讲由于在图像上的每个位置仅使用一个锚点而不是固定IoU阈值分配器所需的每个位置多达九个锚点[34]它简化了锚点设计。基本上ATSS分配器包含三个步骤i考虑锚点与真实边界框中心之间的距离选择top-k个锚点作为正分配的候选者通常k9ii基于这些候选者的统计信息计算自适应IoU阈值并将IoU低于该自适应阈值的锚点从候选集中移除最后iii过滤掉中心不在真实边界框内的候选锚点。完成这三个步骤后候选集中剩余的锚点即为正样本即与对象匹配所有其他锚点即为需要被预测为背景的负样本。将我们的GmaIoU整合到ATSS中很简单在步骤ii中我们只需将基于IoU的自适应阈值替换为基于我们的GmaIoU的自适应阈值。4. 实验在本节中我们通过将GmaIoU整合到YOLACT [5]中评估其有效性。YOLACT是一种基于锚点的前沿SOTA实时实例分割方法在效率和性能之间取得了良好的平衡。具体来说第4.2节展示了比较GmaIoU不同配置与IoU变体的消融实验。第4.3节通过采用几种保持方法实时性的改进策略构建了GmaYOLACT检测器。最后第4.4节将我们的方法与前沿实例分割方法进行了比较。4.1. 实验与实现细节数据集。我们采用常用的COCO trainval集[11]115K张图像进行训练除非另有说明否则使用COCO minival集5K张图像进行验证。表2不同分配器和IoU变体在YOLACT上的比较。考虑到对象的形状我们采用maIoU的ATSS始终优于其对应方法。4.2. 消融实验在本节中我们证明GmaIoU始终优于使用忽略对象形状的不同IoU变体的分配器。此外我们展示了我们的算法1能够高效计算GmaIoU使其在训练期间使用成为可能。使用带有IoU变体的ATSS。我们首先建立一个更强的基线将YOLACT中的固定IoU阈值分配器替换为带有IoU及其不同变体包括DIoU [18]和GIoU [17]的ATSS。我们在表2中观察到在不同尺度上使用ATSS比传统的固定IoU分配器高出0.6−1.2个掩膜AP。使用带有我们GmaIoU的ATSS。现在我们使用带有ATSS的GmaIoU使分配方法能够考虑对象的形状这与现有的锚点分配方法不同。我们测试了第3节中介绍的GmaIoU的两种配置PB和PM同时将maIoU扩展到GmaIoU。我们注意到PM的情况是归功于我们的泛化和高效算法分别推导和计算的而PB的情况就是maIoU [14]。表2表明观察到在所有尺度上PM优于PB我们的泛化实际上比依赖标准maIoUPB更有用。表3不同分配器的平均迭代时间t。虽然暴力计算maIoU效率低下算法1为-我们的算法1显著减少了计算时间使其与标准分配器相当。方法平均迭代时间秒加速比暴力计算maIoU41.891x (基线)标准ATSS (w. IoU)0.60~70xATSS w. GmaIoU (算法1)0.59~71x表4GmaYOLACT的构建块。我们的带有GmaIoU的ATSS使YOLACT更准确且速度提高约25%主要归功于使用更少的锚点。凭借这种效率我们构建了具有34.8 AP且帧率仍高于YOLACT的maYOLACT-550。方法APAP_boxfps锚点数量YOLACT-55028.530.728~ 19.2K ATSS w. GmaIoU, P M30.732.832~ 6.4K Carafe FPN [39]31.433.431~ 6.4K DCNv2 [40]33.736.428~ 6.4K 余弦退火 [41]34.737.528~ 6.4K 更多锚点34.737.927~ 12.8K 单GPU训练35.538.727~ 12.8K RS-Loss [20]35.640.328~ 12.8K外我们的PM情况下的GmaIoUi在400、500和700尺度上分别比固定IoU分配器高出1.4、2.2和2.5个掩膜APii在所有尺度上比使用IoU变体的ATSS提高了约∼1.0个掩膜AP。GmaIoU的主要改进尤其体现在1通过较大尺度训练表2中700 vs. 400和2较大对象APL vs. APS上。这些结果与我们GmaIoU的高层思想图1一致因为当对象尺寸增加时其形状比其边界框更重要。高效计算GmaIoU。在训练期间对每个锚点-真实边界框对进行暴力计算GmaIoU是不切实际的因为以41.89秒/迭代的速度训练单个模型大约需要3个月。表3表明我们的高效算法算法1在平均迭代时间上产生了显著的增益约∼70×降至0.59秒/迭代并使分配算法能够考虑对象的形状。通过这一点我们获得的平均迭代时间与其他标准分配器相似表3。我们注意到对于GmaIoUPM情况的计算与PB情况非常相似因此对于PM也得出了相同的结论。4.3. GmaYOLACT检测器更快更强我们的带有GmaIoU分配器的ATSS表4中带下划线使我们能够减少锚点数量∼19.2K vs ∼6.4K并使YOLACT比基线YOLACT28 fps快约∼25%32 fps¹。这虽然YOLACT-550使用ResNet-101作为骨干但我们使用ResNet-50以保持一致性并强调改进。凸显了锚点设计策略对于提高实时实例分割模型效率的重要性。本节的目标是通过整合我们的GmaIoU和最近的进展来改进标准YOLACT目标是使其与最新方法竞争同时保持其实时处理能力²。为了实现这一目标我们通过整合以下改进策略构建了GmaYOLACT检测器在标准FPN [48]中使用Carafe-FPN [39]作为上采样操作在骨干网络中使用可变形卷积[40]余弦退火[49]学习率调度初始学习率为0.008取代了阶梯式学习率衰减每个像素使用两种锚点基础尺度4和8并将标准ATSS使用的锚点数量加倍遵循基线YOLACT [5]的单GPU训练我们发现这与多GPU训练相比非常有用使用Rank Sort (RS) 损失[20]作为训练目标使得模型易于调整并显著提高检测性能。在我们的最终设计中我们将语义分割头的权重设置为0.5并对其他头使用RS Loss的自平衡因此我们不对它们进行调整。我们将学习率设置为0.008并将NMS前的背景移除阈值设置为0.55因为我们观察到RS Loss相比传统的基于分数的损失函数产生了更高的置信度分数。表4显示在不影响推理时间即在单个Nvidia RTX 2080Ti GPU上为28 FPS的情况下我们的GmaYOLACT-550检测器显著改善了基线YOLACT-550掩膜AP提高了7.1边界框AP提高了9.6达到了35.6的掩膜AP和40.4的边界框AP。我们还注意到这些结果也比GmaIoU检测器的早期版本maYOLACT检测器[14]提高了约∼1个掩膜AP和2.5个边界框AP未包含在表4中。4.4. 与前沿方法SOTA的比较我们在表5中将我们的GmaYOLACT与COCO test-dev分割上的前沿方法进行了比较。²我们不使用YOLACT [8]中提出的更快的NMS或更高效的骨干网络因为我们的目标是展示GmaIoU分配器的优势。使用这些技术可能进一步提升性能。表5在COCO test-dev上与SOTA方法的比较。我们的maYOLACT-700为实时实例分割树立了新的SOTA水平。\* 表示我们实现的带有ATSS w.IoU的YOLACT。当论文未报告某项性能指标时标注为N/A并且我们为了完整性使用其代码库复现了性能用† 表示。与YOLACT变体的比较。我们的GmaYOLACT-550达到了35.9的掩膜AP超越了所有YOLACT变体包括那些具有更大骨干网络例如带有ResNet-101的YOLACT-550更大尺度的例如YOLACT-700以及本工作初始版本[14]中提出的maYOLACT-550检测器。与YOLACT [8]其比YOLACT慢约∼25%见Bolya等人[8]的表6不同GmaYOLACT-550具有与YOLACT-550相似的推理时间并且在COCO test-dev上仍然实现了约∼6个掩膜AP的提升达到35.9的掩膜AP。与实时方法的比较。没有像Solov2 [26]那样利用多尺度训练也没有像CenterMask [53]那样使用专门设计的骨干网络我们的GmaYOLACT-700仍然以38.7的掩膜AP和25fps的性能超越了现有的实时对应方法至少高出约∼1个掩膜AP。此外我们的顶级模型在常用的AP50指标上达到了61.0并且与其最接近的实时对应方法SparseInst相比在掩膜AP50上存在约∼2个点的差距。与其他方法的比较。如表5所示我们的GmaYOLACT在与相对较慢的方法竞争中也表现强劲。它超越了PolarMask [23]、RetinaMask [12]、Mask R-CNN [6]和TensorMask [50]同时速度更快。例如在RTX 2080Ti GPU上我们的GmaYOLACT-700以25fps的帧率提供了约2倍的吞吐量并且与测试时间为14 fps的基于ResNet-101的PolarMask相比掩膜AP提升了近4个点37.7 AP - 表5。它也比使用ResNet-101的TensorMask即约∼3 fps快约8倍同时保持了相似的性能。5. 结论我们提出了GmaIoU这是我们之前maIoU的广义版本它提供了使用真实掩膜及其边界框或仅使用掩膜的灵活性。为了训练实例分割方法我们使用GmaIoU将锚点指定为正样本或负样本利用仅由真实分割掩膜指示的对象形状。我们展示了将我们的GmaIoU与ATSS整合可以提升模型的运行时性能。凭借这种提高的效率我们能够在实时应用中达到SOTA结果。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2464274.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！