arxiv | 2025 | DuGI-MAE: Improving Infrared Mask Autoencoders via Dual-Domain Guidance

news2026/3/21 12:15:16

文章目录创新点贡献摘要及引言预备知识方法基于熵的掩码模块双域导向⾃适应频域调制AFDM频率引导注意力注入用于下游任务的DuGI-MAE实验红外目标检测红外语义分割红外小目标检测消融研究结论未来方向arxiv | 2025 | DuGI-MAE论文https://arxiv.org/abs/2505.06855代码https://arxiv.org/pdf/2505.06855?期刊arXiv时间2025创新点本文团队设计了基于标记熵的确定性掩码策略仅保留高熵标记用于重建以提升信息量本文团队引入双域引导模块DDG该模块既能捕捉全局标记关联又能自适应滤除红外图像中常见的非均匀背景噪声为便于大规模预训练本文团队构建了Inf-590K红外图像数据集该数据集涵盖多样化场景、多种目标类型及多空间分辨率贡献提出了一种双域引导基础模型DuGI-MAE该模型采用基于确定性熵的掩码策略以缓解信息缺失标记的问题提出 DDG 模块用于指导掩码标记重建通过采用自适应频率滤波技术来降低红外图像中的非均匀噪声构建了一个大规模数据集Inf-590K专门用于红外影像的自监督预训练。在Inf-590K数据集上进行预训练可显著提升各类自监督方法在红外图像解释任务中的泛化能力在红外目标检测、语义分割及小目标检测方面的实验结果一致表明DuGI-MAE具有优越性与泛化能力摘要及引言红外成像技术在弱光环境及恶劣天气条件下具有关键应用价值。然而由于红外图像具有独特特征基于可见光数据训练的掩码自编码器MAE等基础模型在红外图像解析任务中表现欠佳尽管InfMAE效果显著但仍存在信息标记缺失、全局关联建模不足及非均匀噪声处理不力等局限性图1(a)典型场景的代表性红外图像。左图原始红外图像背景信号强烈常会掩盖实际目标中图图像熵图右图采用自适应频域调制AFDM去噪声处理后的图像 (b)InfMAE的灰度值掩码与本研究熵基掩蔽方法的对比InfMAE的掩码按灰度值选择会保留部分背景噪声区域漏掉部分⽬标区域保留的Token分布散乱本⽂的熵值掩码只保留熵值最⾼的⽬标和边界区域保留的Token精准且集中能为后续还原提供⾜够的关键信息为解决上述问题本文团队提出了一种基于MAE的双域引导红外基础模型命名为DuGI-MAE本文团队首先设计了一种确定性掩码策略选择性保留最具信息量的标记从根本上避免了随机采样或固定间隔采样常导致的关键信息丢失为增强全局关联性并同时抑制非均匀噪声本文团队进一步引入了双域引导DDG模块该模块整合了自适应频率滤波器DDG模块作为编码器与解码器之间的桥梁有效提升了对鲁棒且抗噪红外表征的学习能力为促进预训练工作我们构建了大规模红外数据集Inf-590K该数据集包含从多种平台和视角采集的590,700幅红外图像涵盖广泛场景类型、目标类别及空间尺度预备知识信噪⽐图像中有效⽬标信号和⽆⽤噪声的⽐例⽐例越⾼图像越清晰温度漂移噪声⾮均匀噪声的⼀种会导致⽬标区域变暗、背景区域变亮严重压制⽬标熵值掩码策略按图像块的信息熵值选择保留的Token熵值越⾼表⽰信息越丰富优先保留双域引导模块融合空间域和频率域特征的模块既强化全局关联⼜过滤噪声⾃适应频域调制DDG模块的⼦模块通过可学习的滤波器在频率域⾃适应压制噪声、保留有⽤信息快速傅⾥叶变换把图像从空间域转到频率域的快速算法是信号处理的基础⽅法径向滤波器以频率域中⼼为原点按径向距离设计的滤波器专⻔处理低频率的背景/噪声方法图2DuGI-MAE的整体架构。该架构包含a基于熵的掩码模块、b编码器、c双域引导DDG模块以及d解码器a 熵值掩码模块1输入原始红外图像先通过简单的卷积层把图像转化为特征图再切成一个个Token2计算每个Token的信息熵熵值越高信息越丰富比如目标、目标和背景的边界3按熵值给Token排序确定性保留熵值最高的25% Token把剩下75% Token“掩码遮住”4最终只把这 25% 的高价值 Token送入下一个模块编码器从根上避免漏掉红外目标信息b 编码器1接收掩码模块送来的25%高熵Token用Transformer层对Token做特征提取Transformer 是模型的核心能捕捉 Token 之间的关联2编码器分3 个阶段Stage1/Stage2/Stage3层数依次是2层、2层、11层Transformer层层递进提取特征1.Stage1浅层提细节特征比如目标的边缘、小轮廓2.Stage2中层提局部结构特征比如目标的整体形状3.Stage3深层提全局语义特征比如判断这个 Token 属于车 / 人 / 建筑3最终输出3个多尺度的空间域特征F1/F2/F3分别对应 3 个阶段的输出这些特征是后续处理的基础c 双域引导 DDG 模块1支路 1频率域特征提取AFDM 处理直接对原始红外图像做自适应频域调制AFDM就是图 4 的流程FFT 转频率域→径向滤波器过滤低频率噪声→IFFT 转回空间域处理后得到频率域增强特征噪声被滤掉目标的全局结构更清晰再通过简单的下采样、分块转化为和空间特征匹配的 Token 格式2支路 2空间频率特征融合频率引导注意力注入1.把编码器输出的空间域特征F1/F2/F3作为“查询Q”相当于模型的 “问题”这个 Token 是什么2.把 AFDM 处理后的频率域特征作为 “键K” 和 “值V”相当于模型的 “参考答案”从全局频率视角这个 Token 应该对应什么特征3.模型通过注意力机制让空间特征 “参考” 频率特征的答案重新计算注意力权重 ——自动把注意力放在频率域中高响应的目标区域把分散的空间 Token 关联起来解决全局关联差的问题4.最终输出双域融合特征既保留了空间域的局部细节又融合了频率域的全局结构还滤掉了噪声是质量极高的特征d 解码器1接收 DDG 模块送来的双域融合特征同时在特征图上补全被掩码的 Token 位置2解码器同样用 Transformer 层基于融合特征的信息对每个空拼图位做像素还原3最终输出完整的还原红外图像和原始图像对比计算误差均方误差 MSE误差越小说明模型学的红外特征越精准自监督学习的效果越好基于熵的掩码模块本文采用香农熵作为量化指标来评估每个标记的信息含量。熵值较高的标记会被优先保留而其他区域则采用更高比例的掩码处理这种策略能有效促使模型聚焦于红外模态特有的判别特征标记保留的始终能完整保留信息内容包括目标区域及其与背景的边界特征设λ为掩码比例本文团队根据熵值对标记进行升序排序并保留熵值最高的最后(1−λ)个标记这些标记被认为代表红外图像中最具信息量的区域通常包含重要热目标该过程可表述为:I keep { I sort [ i ] ∣ i ∈ [ ⌊ λ ⋅ N ⌋ , N − 1 ] } \mathcal{I}_{\text{keep}} \left\{ \mathcal{I}_{\text{sort}}[i] \mid i \in \left[ \lfloor \lambda \cdot N \rfloor, N-1 \right] \right\}Ikeep{Isort[i]∣i∈[⌊λ⋅N⌋,N−1]}Mask [ i ] { 1 , if i ∈ I keep , 0 , otherwise , \text{Mask}[i] \begin{cases} 1, \text{if } i \in \mathcal{I}_{\text{keep}}, \\ 0, \text{otherwise}, \end{cases}Mask[i]{1,0,ifi∈Ikeep,otherwise,其中i ii为标记索引I sort \mathcal{I}_{\text{sort}}Isort表示已排序的索引序列I keep \mathcal{I}_{\text{keep}}Ikeep代表待保留的标记[·]代表取整函数双域导向这是本⽂的核⼼创新模块夹在编码器和解码器之间核⼼是⽤频率域的全局信息引导空间域的局部信息同时过滤⾮均匀噪声分为⾃适应频域调制AFDM和频率引导注意⼒注⼊两个核⼼⼦模块该模块通过自适应频域调制AFDM从红外图像中提取频域特征随后通过补丁嵌入技术进行特征投影为后续Transformer模块提供键值对数据与此同时编码器生成的空间特征被构建成查询-键-值三元组。频率增强特征随后对空间特征进行引导使其能够更有效地关注目标区域⾃适应频域调制AFDM尽管高通滤波可有效抑制非均匀噪声尤其是温度漂移噪声但本文团队认为直接滤除低频分量会导致图像内容丢失。为此本文团队提出了⾃适应频域调制AFDM图3自适应频域调制AFDM。输入图像首先通过快速傅里叶变换FFT转换至频域。随后应用可学习径向滤波器以抑制非均匀背景噪声通常为低频分量同时保留判别特征。最后通过逆 FFTIFFT将处理后的特征转换回空间域核心作用给红外图像做 “智能去噪”专门过滤红外图像里的非均匀噪声比如温度漂移噪声同时还不丢失目标的有效特征最终输出一张噪声少、目标清的频率增强特征图给DDG模块的双域融合提供高质量的频率域特征输入原始红外空间域图像把还没做任何处理的原始红外图像送入 AFDM 模块这张图的特点是有非均匀噪声、目标可能被噪声压制比如背景亮、目标暗、整体信息模糊也是需要去噪的 “原材料”通过FFT快速傅里叶变换转成频率域频谱转换后得到的频率域频谱是一个二维图中心区域是低频成分对应红外的非均匀噪声、大面积均匀背景边缘区域是中高频成分对应目标的热辐射特征、目标和背景的边界、小目标细节用可学习的径向滤波器对频谱做智能调制过滤只对频谱中心的低频区做处理对边缘的中高频区完全不碰确保目标特征不被破坏经过过滤后得到调制后的频率域频谱频谱中心的低频噪声被自适应压制边缘的中高频目标特征完全保留实现了噪声和特征的精准分离。且这个滤波器不是固定参数不是每次都压一样的低频而是带可学习参数的模型在训练时会根据不同红外图像的噪声类型、强度自己调整滤波器的参数动态控制对低频噪声的压制程度和压制范围通过IFFT逆快速傅里叶变换转回空间域把第三步处理好的调制后频谱重新转回到我们能处理的空间域特征图。这张图的特点是非均匀噪声被大幅过滤、目标的热辐射特征更突出、背景更干净而且完全保留了目标的形状和位置信息频率引导注意力注入使用频率增强特征图作为空间域特征的引导在第一个Transformer模块中首先被编码为键K f r e q K_{freq}Kfreq和值V f r e q V_{freq}Vfreq对随后与空间键K s p a t i a l K_{spatial}Kspatial和值V s p a t i a l V_{spatial}Vspatial对进行整合:Attention ( F 1 , F freq ) σ ( Q spatial ( K spatial T K freq T ) d k ) ⋅ ( V spatial V freq ) \text{Attention}(\mathbf{F}_1, \mathbf{F}_{\text{freq}}) \sigma\left( \frac{\mathbf{Q}_{\text{spatial}} \left( \mathbf{K}_{\text{spatial}}^T \mathbf{K}_{\text{freq}}^T \right)}{\sqrt{d_k}} \right) \cdot \left( \mathbf{V}_{\text{spatial}} \mathbf{V}_{\text{freq}} \right)Attention(F1,Ffreq)σdkQspatial(KspatialTKfreqT)⋅(VspatialVfreq)F1表示编码器中第一阶段的输出σ ( ⋅ ) σ(·)σ(⋅)为softmax函数Q s p a t i a l Q{spatial}Qspatial表示空间特征查询d k \sqrt{d_k}dk为缩放因子在后续Transformer模块中空间特征被添加到前一模块的输出中以形成键值表征而空间特征本身仍作为查询输入频率引导注意力注入机制将注意力权重导向高响应目标区域从而增强关键结构用于下游任务的DuGI-MAEDuGI-MAE的预训练编码器可适配下游任务包括红外目标检测、语义分割和小目标检测实验红外目标检测表1不同目标检测方法在M3 ^33FD-inf数据集上的性能比较组1纯监督方法无自监督预训练直接用标注数据训(1)包含DETR、DINO、YOLOv8(2)性能mAP最高只有 53.7YOLOv8AP50最高 80.3(3)结论纯监督方法针对可见光设计直接用在红外上效果最差体现红外专用模型的必要性组2经典自监督方法可见光 MAE 改进适配红外(1)包含MAE、MCMAE(2)性能MAE到MCMAE性能逐步提升(3)结论在Inf-590K上做自监督预训练后性能大幅提升证明红外大尺度预训练的核心价值组3红外专用自监督方法(1)包含InfMAE、DuGI-MAE(2)性能DuGI-MAE全面超越InfMAE是表格中性能最好的模型(3)结论充分证明DuGI-MAE提取的红外特征更精准做目标检测更有效红外语义分割表2不同语义分割方法在 MSRS 数据集上的性能对比组1经典纯监督分割方法针对可见光设计无红外预训练(1)包含DeeplabV3、UperNet、DNLNet、DDRNet(2)性能mIoU 最高 67.3DDRNetmAcc 最高 75.7DNLNet(3)结论和目标检测一致可见光纯监督方法直接用在红外分割上效果远不如红外专用自监督方法组2经典自监督方法可见光 MAE 改进Inf-590K 预训练(1)包含MAE、MCMAE(2)性能MAE到MCMAE性能逐步提升(3)结论再次验证Inf-590K 大尺度红外预训练是提升性能的关键自监督预训练能让模型学到更通用的红外特征组3红外专用自监督方法(1)包含InfMAE、DuGI-MAE(2)性能DuGI-MAE依旧全面超越 InfMAE是表格中所有方法的性能最高值(3)结论证明DuGI-MAE提取的红外特征不仅适合目标检测也适合像素级的语义分割泛化能力极强红外小目标检测表3不同红外小目标检测方法在IRSTD -1k数据集上的性能对比组1传统手工设计方法无深度学习靠人工设计特征规则(1)包含MPCM、IPI、RIPT(2)性能mIoU最高仅28.0Pd最高65.7性能最差(3)结论纯人工设计的规则没法捕捉红外小目标的微弱特征既找不准目标位置又容易漏掉目标完全跟不上深度学习方法组2深度学习监督方法有标注数据训练无红外自监督预训练(1)包含ACMNet、DNANet、UIUNet、SCAFNet(2)性能mIoU最高66.3Pd最高91.3比传统方法大幅提升但仍不如红外专用自监督方法(3)结论深度学习能学到更复杂的特征但这些方法多针对可见光/通用场景设计没有经过红外大尺度预训练对红外小目标的特征捕捉仍不够精准组3红外专用自监督方法(1)包含MAE、MCMAE、InfMAE、DuGI-MAE(2)性能DuGI-MAE仍然是全表性能最高的模型(3)结论经过Inf-590K红外大尺度预训练后模型能学到更贴合红外小目标的特征而DuGI-MAE凭借熵值掩码DDG双域融合比上一代红外模型InfMAE更精准实现了小目标检测的性能突破消融研究表4DDG 模块在不同自监督预训练模型上的性能提升效果MAE/MAEDDG即使是针对可见光设计的通用MAE加上DDG模块后红外检测性能也能明显提升证明DDG 能有效弥补通用模型在红外特征学习上的短板MCMAE/MCMAEDDGMCMAE本身性能比MAE高加DDG后仍有稳定提升说明DDG对改进型MAE模型同样有效InfMAE/InfMAEDDG即使是专门为红外设计的InfMAE加上DDG模块后性能仍能进一步提升证明DDG模块的双域融合设计比InfMAE的单一空间域特征学习更优能有效提升红外专用模型的性能结论DDG模块不仅能用于本文的DuGI-MAE还能无缝集成到其他主流的MAE/MCMAE/InfMAE模型中且均能带来性能提升说明DDG模块不是 “专属补丁”而是通用的红外特征增强模块具有很强的泛化性和工程应用价值结论本文提出了一种专为红外模态设计的自监督预训练框架DuGI-MAE该模态本身具有信息密度较低的固有特征针对激进掩蔽导致的重建瓶颈本文团队设计了融合空间域与频域线索的双域引导DDG模块。该设计显著提升了模型同时捕捉精细局部细节与全局结构模式的能力通过物体检测、语义分割及小目标检测等下游任务的广泛实验表明DuGI-MAE始终优于现有最先进方法值得关注的是 DDG 模块可无缝集成到现有编码器-解码器预训练框架中进一步提升了红外数据处理性能未来方向在后续工作中本文团队将通过在预训练过程中引入更多物理先验信息以推动红外基础模型的开发

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2433375.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！