(论文速读)AFSS :防遗忘采样策略

news2026/4/6 1:51:44
论文题目Does YOLO Really Need to See Every Training Image in Every Epoch?YOLO真的需要查看每个epoch的每个训练图像吗?会议CVPR2026摘要YOLO检测器以其快速的推理速度而闻名但是训练它们仍然非常耗时因为它们的管道非常详尽即使在许多图像已经被充分学习的情况下也要处理每个epoch的每个训练图像。这与“你只看一次”的理念所建议的效率形成鲜明对比。这自然提出了一个重要的问题:YOLO真的需要查看每个时代的每个训练图像吗?为了探索这一点我们提出了一种防遗忘采样策略(AFSS)该策略动态地确定应该使用哪些图像哪些图像可以在每个epoch中跳过从而使检测器能够更有效地学习。具体而言AFSS将每个训练图像的学习充分性作为其检测召回率和精度的最小值并相应地动态地将训练图像分为简单、中等或困难级别。简单的训练图像在训练过程中以连续回顾的方式稀疏重采样优先考虑长时间未使用的图像以减少冗余防止遗忘。适度的训练图像被部分选择优先考虑最近未使用的图像并从未选择的图像中随机选择其余的图像以确保覆盖范围并防止遗忘。硬训练图像在每个epoch都被完全采样以确保充分的学习。每个训练图像的学习充分性定期更新使检测器能够自适应地将焦点转移到信息丰富的训练图像上同时逐步丢弃冗余的训练图像。在广泛使用的自然图像检测基准(MS COCO 2017和PASCAL VOC 2007)和遥感检测数据集(DOTA-v1.0和DIORR)上AFSS在提高准确率的同时为yolo系列探测器实现了超过1.43倍的训练加速。YOLO 真的需要每个 Epoch 都看遍全部训练图像吗——AFSS 论文详解一、背景被忽视的训练效率悖论YOLO 系列检测器以You Only Look Once为名以极快的推理速度闻名于世是工业界和学术界实时目标检测的事实标准。然而论文作者敏锐地发现了一个长期被忽视的矛盾YOLO 的推理很快但训练却出奇地慢。以 YOLO11s 为例在两张 RTX 4090 上其推理速度高达 200 FPS然而在 MS COCO 2017 数据集上完整训练一次却需要43.9 小时。与此形成鲜明对比的是Faster R-CNNResNet50在相同硬件下仅需6.5 小时速度是 YOLO11s 的6.9 倍。一个以只看一次为设计哲学的模型训练时却要把每张图像反复看几百遍——这难道不是一个巨大的矛盾吗【Figure 1(b)——YOLO11s 与 YOLO11sAFSS 的训练时间与精度对比曲线】二、问题根源全覆盖训练范式的低效性为了理解这种低效的根源论文作者从训练图像利用率的角度重新审视了 YOLO 的训练行为。YOLO 采用的是全覆盖训练范式Full-Coverage Training Paradigm在每一个 epoch 中训练集中的每一张图像都必须参与前向传播和反向传播。这意味着一个训练 600 个 epoch 的模型每张图像会被处理整整 600 次不论模型是否早已从这张图像中学到了足够的知识。这一范式存在两个根本性的问题收益递减当模型已经充分学会了某些简单图像后继续以相同频率处理它们对模型能力的提升几乎没有帮助却白白消耗了大量的计算资源。对所有图像一视同仁该范式隐含地假设所有训练图像在整个训练过程中贡献相同。然而随着模型不断演化每张图像的信息量informativeness会自然发生变化。早期困难的图像可能已经被充分学习而新的困难案例则需要更多关注。【此处配图Figure 1(a)——每个 Epoch 使用的训练图像数量对比展示 AFSS 逐渐减少图像用量的趋势】这一观察引出了论文的核心问题YOLO 真的需要在每个 Epoch 都看遍全部训练图像吗三、方法Anti-Forgetting Sampling StrategyAFSS为了回答上述问题论文提出了抗遗忘采样策略Anti-Forgetting Sampling StrategyAFSS。其核心思想是让训练变得自适应而非机械均匀——根据每张图像的学习状态动态决定哪些图像需要继续训练、哪些可以暂时跳过同时防止模型遗忘已经学好的知识。AFSS 的整体工作流程如下图所示【此处配图Figure 2——AFSS 在第 t 个 epoch 的整体工作流程图】3.1 学习充分性度量Learning Sufficiency MetricAFSS 的第一步是量化每张图像被学习的程度。作者认为一张图像只有在检测器既能正确分类其中所有目标又能完整定位它们时才算被可靠地学习了。因此定义图像 Ii 的学习充分性为其中 Pi 和 Ri 分别是该图像上的检测精度Precision和召回率Recall。取最小值的关键在于只要精度或召回率任意一项不可靠该图像就被认为学习不足。这种设计能有效聚焦于模型的薄弱环节而非被平均值掩盖。相比于基于 loss 或梯度的度量方式该指标直接对应检测任务目标且现代 YOLO 框架已经计算了这些统计数据几乎不引入额外计算开销。根据学习充分性分数AFSS 将图像分为三个难度级别难度级别含义Easy简单检测器已高置信度掌握Moderate中等部分稳定仍需精调Hard困难仍具挑战性遮挡、小目标等【此处配表Table 5(a)——不同学习充分性度量指标的对比消融实验】3.2 持续复习机制Continuous Review—— Easy 图像策略对于 Easy 图像完全跳过会导致模型遗忘已学知识但高频重复又是浪费。AFSS 引入持续复习机制每个 epoch 仅让2% 的 Easy 图像参与训练强制复习Forced Review从超过10 个 epoch未被使用的 Easy 图像中随机抽取一部分不超过总量的 1%强制纳入当前 epoch。这批图像专门用于防止长期遗忘。随机多样性Random Diversity从剩余 Easy 图像中再随机抽取一部分约 1%维持样本的多样性增强鲁棒性。两者共同构成一个轻量、高效的排练机制Rehearsal Mechanism在几乎不增加计算成本的前提下有效防止知识退化。3.3 短期覆盖机制Short-Term Coverage—— Moderate 图像策略Moderate 图像处于学习的不稳定区间预测置信度尚未充分稳定需要相对频繁的监督。AFSS 采用短期覆盖机制每个 epoch 参与约40% 的 Moderate 图像优先纳入超过 3 个 epoch 未被使用的图像强制覆盖防止遗忘从剩余图像中随机补充保证分布多样性。这一设计保证每张 Moderate 图像在不超过 3 个 epoch 的时间窗口内都会被复习一次兼顾了覆盖率与效率。【此处配表Table 5(b)(c)——持续复习间隔与短期覆盖间隔的消融实验】3.4 全量采样Full Coverage—— Hard 图像策略Hard 图像是模型尚未充分学习的困难案例通常涉及严重遮挡、小目标、密集排列等场景。对这类图像AFSS 维持与 vanilla YOLO 相同的策略每个 epoch 全部参与确保对困难样本持续、充分的梯度更新。3.5 状态更新机制State Update为避免每个 epoch 都重新评估所有图像的精度和召回率这本身会带来可观的计算开销AFSS 采用每 5 个 epoch 更新一次的策略在 warm-up 阶段结束后生效。每张图像的状态记录包含精度 $P_i$、召回率 $R_i$、最近一次被使用的 epoch 编号 $ep_i$。这份状态字典在每次更新后被传递到下一个 epoch使 AFSS 能够持续追踪每张图像的学习进展和使用历史。【此处配表Table 5(d)——状态更新间隔的消融实验】四、实验结果4.1 主实验自然图像数据集在 MS COCO 2017 和 PASCAL VOC 2007 上使用 YOLOv8、YOLOv10、YOLO11、YOLO12 的全系列规模n/s/m/l/x进行评估。核心结论AFSS 在所有模型和数据集上均实现超过1.43×的训练加速同时精度持平甚至小幅提升。【此处配表Table 1——不同模型在 MS COCO 2017 和 PASCAL VOC 2007 上加 AFSS 前后的精度与训练时间对比】以几个有代表性的数据点为例YOLO11s on COCO训练时间 43.9h → 28.4h加速1.54×AP 47.0 →47.2YOLO12x on COCO训练时间 260.6h → 154.8h加速1.68×AP 55.2 →55.4YOLOv8n on VOC训练时间 4.5h → 2.8h加速1.60×mAP 75.9 →76.0一个有趣的规律是模型越大AFSS 带来的加速比越高。这是因为更大的模型具有更强的学习能力能更快地将图像学到Easy级别从而更早开始跳过冗余样本。4.2 主实验遥感图像数据集在 DOTA-v1.0 和 DIOR-R 上使用 YOLOv8-OBB 和 YOLO11-OBB 进行定向目标检测评估。核心结论AFSS 实现超过1.63×的训练加速并伴随 mAP 的持续提升。遥感场景中目标密集、背景复杂困难样本比例更高这使得 AFSS 的自适应策略更能发挥作用。【此处配表Table 2——不同 OBB 模型在 DOTA-v1.0 和 DIOR-R 上加 AFSS 前后的对比】4.3 与其他训练策略的对比论文将 AFSS 与四种现有的训练效率提升方法进行了比较均使用 YOLO11s on COCO【配表Table 3——AFSS 与课程学习、自步学习、数据剪枝、数据集蒸馏的对比】其他方法普遍面临加速就掉点的两难困境课程学习/自步学习固定的由易到难调度导致困难样本在训练初期参与不足最终精度明显下降数据剪枝静态且不可逆地丢弃图像导致有偏梯度和遗忘问题数据集蒸馏合成数据缺乏真实场景的噪声和多样性精度损失最大35.6 AP。AFSS 是唯一一个在大幅提速的同时还能略微提升精度的方法。4.4 消融实验各模块的贡献【此处配表Table 4——LSM、CR、STC、SU 各模块的消融实验】逐步添加各模块的消融结果表明仅使用 LSM能实现 1.45× 加速但精度下降至 44.8 AP未加遗忘防护机制模型丢失了对 easy 图像的记忆LSM CR精度回升至 45.5 AP持续复习有效抑制了遗忘LSM CR STC精度进一步提升至 46.6 APLSM CR STC无 SU精度达到 47.2 AP但加速仅 1.26×每 epoch 都重新评估状态计算开销大完整 AFSS加入 SU精度 47.2 AP加速1.54×State Update 是实现高效率的关键。4.5 训练动态可视化【此处配图Figure 3——训练过程中 Easy/Moderate/Hard 图像数量的变化趋势】Figure 3 展示了训练过程中三个难度级别图像数量的动态变化Hard 图像数量持续减少Easy 和 Moderate 图像数量增加说明模型在 AFSS 的引导下更快地掌握了困难样本——这正是精度能够提升的根本原因。【此处配图Figure 4——在困难图像上YOLO11s 与 YOLO11sAFSS 在第 100、300、600 个 epoch 的检测效果对比】Figure 4 的定性对比也印证了这一点AFSS 训练的模型在同等训练轮次下对困难样本如遮挡、拥挤场景的检测明显优于 baselinemissed detection 和错误预测更少。五、总结与思考论文的核心贡献这篇论文的核心贡献可以用一句话概括用聪明地选择看哪些图像代替机械地看完所有图像让 YOLO 训练既快又好。具体而言AFSS 通过三点设计实现了这一目标精准的难度度量用 min(P, R) 识别哪些图像已被充分学习差异化的采样策略对 Easy/Moderate/Hard 图像分别制定截然不同的参与频率抗遗忘机制通过强制复习和短期覆盖防止跳过图像导致的知识退化。方法的意义AFSS 是一种架构无关的训练加速方法可以无缝集成到任何 YOLO 系列检测器中无需修改模型结构或超参数。在 1.43× 至 1.69× 的训练加速范围内它不仅没有牺牲精度还在大多数情况下实现了精度的小幅提升——这在训练加速领域是相当罕见的。更深层次的意义在于有效的检测器训练依赖的是信息量充足的样本而非对全数据集的机械重复。这一思想对未来的训练效率研究具有重要的启示价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2483087.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…