（论文速读）AFSS ：防遗忘采样策略

news2026/4/6 1:51:44

论文题目Does YOLO Really Need to See Every Training Image in Every Epoch?YOLO真的需要查看每个epoch的每个训练图像吗?会议CVPR2026摘要YOLO检测器以其快速的推理速度而闻名但是训练它们仍然非常耗时因为它们的管道非常详尽即使在许多图像已经被充分学习的情况下也要处理每个epoch的每个训练图像。这与“你只看一次”的理念所建议的效率形成鲜明对比。这自然提出了一个重要的问题:YOLO真的需要查看每个时代的每个训练图像吗?为了探索这一点我们提出了一种防遗忘采样策略(AFSS)该策略动态地确定应该使用哪些图像哪些图像可以在每个epoch中跳过从而使检测器能够更有效地学习。具体而言AFSS将每个训练图像的学习充分性作为其检测召回率和精度的最小值并相应地动态地将训练图像分为简单、中等或困难级别。简单的训练图像在训练过程中以连续回顾的方式稀疏重采样优先考虑长时间未使用的图像以减少冗余防止遗忘。适度的训练图像被部分选择优先考虑最近未使用的图像并从未选择的图像中随机选择其余的图像以确保覆盖范围并防止遗忘。硬训练图像在每个epoch都被完全采样以确保充分的学习。每个训练图像的学习充分性定期更新使检测器能够自适应地将焦点转移到信息丰富的训练图像上同时逐步丢弃冗余的训练图像。在广泛使用的自然图像检测基准(MS COCO 2017和PASCAL VOC 2007)和遥感检测数据集(DOTA-v1.0和DIORR)上AFSS在提高准确率的同时为yolo系列探测器实现了超过1.43倍的训练加速。YOLO 真的需要每个 Epoch 都看遍全部训练图像吗——AFSS 论文详解一、背景被忽视的训练效率悖论YOLO 系列检测器以You Only Look Once为名以极快的推理速度闻名于世是工业界和学术界实时目标检测的事实标准。然而论文作者敏锐地发现了一个长期被忽视的矛盾YOLO 的推理很快但训练却出奇地慢。以 YOLO11s 为例在两张 RTX 4090 上其推理速度高达 200 FPS然而在 MS COCO 2017 数据集上完整训练一次却需要43.9 小时。与此形成鲜明对比的是Faster R-CNNResNet50在相同硬件下仅需6.5 小时速度是 YOLO11s 的6.9 倍。一个以只看一次为设计哲学的模型训练时却要把每张图像反复看几百遍——这难道不是一个巨大的矛盾吗【Figure 1(b)——YOLO11s 与 YOLO11sAFSS 的训练时间与精度对比曲线】二、问题根源全覆盖训练范式的低效性为了理解这种低效的根源论文作者从训练图像利用率的角度重新审视了 YOLO 的训练行为。YOLO 采用的是全覆盖训练范式Full-Coverage Training Paradigm在每一个 epoch 中训练集中的每一张图像都必须参与前向传播和反向传播。这意味着一个训练 600 个 epoch 的模型每张图像会被处理整整 600 次不论模型是否早已从这张图像中学到了足够的知识。这一范式存在两个根本性的问题收益递减当模型已经充分学会了某些简单图像后继续以相同频率处理它们对模型能力的提升几乎没有帮助却白白消耗了大量的计算资源。对所有图像一视同仁该范式隐含地假设所有训练图像在整个训练过程中贡献相同。然而随着模型不断演化每张图像的信息量informativeness会自然发生变化。早期困难的图像可能已经被充分学习而新的困难案例则需要更多关注。【此处配图Figure 1(a)——每个 Epoch 使用的训练图像数量对比展示 AFSS 逐渐减少图像用量的趋势】这一观察引出了论文的核心问题YOLO 真的需要在每个 Epoch 都看遍全部训练图像吗三、方法Anti-Forgetting Sampling StrategyAFSS为了回答上述问题论文提出了抗遗忘采样策略Anti-Forgetting Sampling StrategyAFSS。其核心思想是让训练变得自适应而非机械均匀——根据每张图像的学习状态动态决定哪些图像需要继续训练、哪些可以暂时跳过同时防止模型遗忘已经学好的知识。AFSS 的整体工作流程如下图所示【此处配图Figure 2——AFSS 在第 t 个 epoch 的整体工作流程图】3.1 学习充分性度量Learning Sufficiency MetricAFSS 的第一步是量化每张图像被学习的程度。作者认为一张图像只有在检测器既能正确分类其中所有目标又能完整定位它们时才算被可靠地学习了。因此定义图像 Ii 的学习充分性为其中 Pi 和 Ri 分别是该图像上的检测精度Precision和召回率Recall。取最小值的关键在于只要精度或召回率任意一项不可靠该图像就被认为学习不足。这种设计能有效聚焦于模型的薄弱环节而非被平均值掩盖。相比于基于 loss 或梯度的度量方式该指标直接对应检测任务目标且现代 YOLO 框架已经计算了这些统计数据几乎不引入额外计算开销。根据学习充分性分数AFSS 将图像分为三个难度级别难度级别含义Easy简单检测器已高置信度掌握Moderate中等部分稳定仍需精调Hard困难仍具挑战性遮挡、小目标等【此处配表Table 5(a)——不同学习充分性度量指标的对比消融实验】3.2 持续复习机制Continuous Review—— Easy 图像策略对于 Easy 图像完全跳过会导致模型遗忘已学知识但高频重复又是浪费。AFSS 引入持续复习机制每个 epoch 仅让2% 的 Easy 图像参与训练强制复习Forced Review从超过10 个 epoch未被使用的 Easy 图像中随机抽取一部分不超过总量的 1%强制纳入当前 epoch。这批图像专门用于防止长期遗忘。随机多样性Random Diversity从剩余 Easy 图像中再随机抽取一部分约 1%维持样本的多样性增强鲁棒性。两者共同构成一个轻量、高效的排练机制Rehearsal Mechanism在几乎不增加计算成本的前提下有效防止知识退化。3.3 短期覆盖机制Short-Term Coverage—— Moderate 图像策略Moderate 图像处于学习的不稳定区间预测置信度尚未充分稳定需要相对频繁的监督。AFSS 采用短期覆盖机制每个 epoch 参与约40% 的 Moderate 图像优先纳入超过 3 个 epoch 未被使用的图像强制覆盖防止遗忘从剩余图像中随机补充保证分布多样性。这一设计保证每张 Moderate 图像在不超过 3 个 epoch 的时间窗口内都会被复习一次兼顾了覆盖率与效率。【此处配表Table 5(b)(c)——持续复习间隔与短期覆盖间隔的消融实验】3.4 全量采样Full Coverage—— Hard 图像策略Hard 图像是模型尚未充分学习的困难案例通常涉及严重遮挡、小目标、密集排列等场景。对这类图像AFSS 维持与 vanilla YOLO 相同的策略每个 epoch 全部参与确保对困难样本持续、充分的梯度更新。3.5 状态更新机制State Update为避免每个 epoch 都重新评估所有图像的精度和召回率这本身会带来可观的计算开销AFSS 采用每 5 个 epoch 更新一次的策略在 warm-up 阶段结束后生效。每张图像的状态记录包含精度 $P_i$、召回率 $R_i$、最近一次被使用的 epoch 编号 $ep_i$。这份状态字典在每次更新后被传递到下一个 epoch使 AFSS 能够持续追踪每张图像的学习进展和使用历史。【此处配表Table 5(d)——状态更新间隔的消融实验】四、实验结果4.1 主实验自然图像数据集在 MS COCO 2017 和 PASCAL VOC 2007 上使用 YOLOv8、YOLOv10、YOLO11、YOLO12 的全系列规模n/s/m/l/x进行评估。核心结论AFSS 在所有模型和数据集上均实现超过1.43×的训练加速同时精度持平甚至小幅提升。【此处配表Table 1——不同模型在 MS COCO 2017 和 PASCAL VOC 2007 上加 AFSS 前后的精度与训练时间对比】以几个有代表性的数据点为例YOLO11s on COCO训练时间 43.9h → 28.4h加速1.54×AP 47.0 →47.2YOLO12x on COCO训练时间 260.6h → 154.8h加速1.68×AP 55.2 →55.4YOLOv8n on VOC训练时间 4.5h → 2.8h加速1.60×mAP 75.9 →76.0一个有趣的规律是模型越大AFSS 带来的加速比越高。这是因为更大的模型具有更强的学习能力能更快地将图像学到Easy级别从而更早开始跳过冗余样本。4.2 主实验遥感图像数据集在 DOTA-v1.0 和 DIOR-R 上使用 YOLOv8-OBB 和 YOLO11-OBB 进行定向目标检测评估。核心结论AFSS 实现超过1.63×的训练加速并伴随 mAP 的持续提升。遥感场景中目标密集、背景复杂困难样本比例更高这使得 AFSS 的自适应策略更能发挥作用。【此处配表Table 2——不同 OBB 模型在 DOTA-v1.0 和 DIOR-R 上加 AFSS 前后的对比】4.3 与其他训练策略的对比论文将 AFSS 与四种现有的训练效率提升方法进行了比较均使用 YOLO11s on COCO【配表Table 3——AFSS 与课程学习、自步学习、数据剪枝、数据集蒸馏的对比】其他方法普遍面临加速就掉点的两难困境课程学习/自步学习固定的由易到难调度导致困难样本在训练初期参与不足最终精度明显下降数据剪枝静态且不可逆地丢弃图像导致有偏梯度和遗忘问题数据集蒸馏合成数据缺乏真实场景的噪声和多样性精度损失最大35.6 AP。AFSS 是唯一一个在大幅提速的同时还能略微提升精度的方法。4.4 消融实验各模块的贡献【此处配表Table 4——LSM、CR、STC、SU 各模块的消融实验】逐步添加各模块的消融结果表明仅使用 LSM能实现 1.45× 加速但精度下降至 44.8 AP未加遗忘防护机制模型丢失了对 easy 图像的记忆LSM CR精度回升至 45.5 AP持续复习有效抑制了遗忘LSM CR STC精度进一步提升至 46.6 APLSM CR STC无 SU精度达到 47.2 AP但加速仅 1.26×每 epoch 都重新评估状态计算开销大完整 AFSS加入 SU精度 47.2 AP加速1.54×State Update 是实现高效率的关键。4.5 训练动态可视化【此处配图Figure 3——训练过程中 Easy/Moderate/Hard 图像数量的变化趋势】Figure 3 展示了训练过程中三个难度级别图像数量的动态变化Hard 图像数量持续减少Easy 和 Moderate 图像数量增加说明模型在 AFSS 的引导下更快地掌握了困难样本——这正是精度能够提升的根本原因。【此处配图Figure 4——在困难图像上YOLO11s 与 YOLO11sAFSS 在第 100、300、600 个 epoch 的检测效果对比】Figure 4 的定性对比也印证了这一点AFSS 训练的模型在同等训练轮次下对困难样本如遮挡、拥挤场景的检测明显优于 baselinemissed detection 和错误预测更少。五、总结与思考论文的核心贡献这篇论文的核心贡献可以用一句话概括用聪明地选择看哪些图像代替机械地看完所有图像让 YOLO 训练既快又好。具体而言AFSS 通过三点设计实现了这一目标精准的难度度量用 min(P, R) 识别哪些图像已被充分学习差异化的采样策略对 Easy/Moderate/Hard 图像分别制定截然不同的参与频率抗遗忘机制通过强制复习和短期覆盖防止跳过图像导致的知识退化。方法的意义AFSS 是一种架构无关的训练加速方法可以无缝集成到任何 YOLO 系列检测器中无需修改模型结构或超参数。在 1.43× 至 1.69× 的训练加速范围内它不仅没有牺牲精度还在大多数情况下实现了精度的小幅提升——这在训练加速领域是相当罕见的。更深层次的意义在于有效的检测器训练依赖的是信息量充足的样本而非对全数据集的机械重复。这一思想对未来的训练效率研究具有重要的启示价值。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2483087.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！