无监督端到端框架：IVIF

VIF-Net: An Unsupervised Framework for Infrared and Visible Image Fusion

（ VIF-Net: 红外和可见光图像融合的无监督框架）

（本文理解上的难易程度：易）
在本文中，我们提出了一种用于红外和可见图像融合的无监督端到端学习框架。我们首先使用可见和红外帧构建足够的基准训练数据集，这可以解决训练数据集的局限性。此外，由于缺乏标记的数据集，我们的体系结构是从鲁棒的混合损失函数派生的，该函数由改进的结构相似性 (M-SSIM)) 度量和总变化 (TV) 组成，通过设计一个可以自适应地融合热辐射和纹理细节并抑制噪声干扰的无监督学习过程。此外，我们的方法是端到端模型，它避免了设置手工制作的融合规则并降低了计算成本。

介绍

红外和可见光图像方法生成健壮的融合图像，该融合图像综合了区分特征并提高了整体感知质量。例如，图1给出了图像融合的概述，并且纹理细节和红外热特征分别以绿色和黄色标记。我们可以发现，通过融合操作可以提高融合图像的质量。
请添加图片描述
近年来，卷积神经网络 (CNNs) 在各种计算机视觉和图像处理任务中取得了许多重大突破，例如图像分割，超分辨率恢复，分类和显着性检测等。
（对于一些融合方法的介绍：略）
大多数融合方法都有计算成本的限制，其融合规则需要以手动方式设计。因此，我们开发了一个自适应的端到端深度融合框架，称为可见光和红外图像融合网络 (VIF-Net)，如图2所示。首先，我们从不同的图像或视频场景中构建一个足够的基准训练数据集。然后，通过使用需要保留热辐射和环境特征的鲁棒混合损失函数来训练深度网络。具体而言，混合损失函数由修正的结构相似性 (M-SSIM) 质量度量和总变化 (TV) 组成。最后，我们测试和分析了我们的模型，广泛的实验结果表明，在主观和客观评估中，所提出的体系结构的性能均优于最新方法。

贡献

1）训练数据集: 一个新的可见和红外数据集用于训练深度融合网络。我们在不同的真实场景中从TNO和INO视频数据集收集源数据，以增强训练数据集的多样性和鲁棒性。
2）端到端模型: 提出了一种新颖的基于CNN架构的无监督学习方案，用于可见光和红外图像融合，该方案解决了训练缺乏地面真相的局限性。
3）广泛的实验评估: 将VIF-Net与公共图像融合数据集上的代表性方法进行了比较，评估结果证明了我们方法的有效性。此外，我们进一步展示了VIF-Net在视频融合方面的潜力。

相关工作

已经提出了用于可见光和红外图像或视频融合的各种方法。它们大致分为两类: 基于视频的融合方法和基于帧的融合方法。基于视频的方法取决于三维多尺度变换 (3D-MST) 工具。通常，视频信号被视为两个空间维度和一个时间维度的组合，并且三个维度同时融合。Zhang等人提出了一种使用3D survelet变换和3D均匀离散curvelet变换融合视频的视频融合方案。不幸的是，基于3D变换的方法具有很高的计算复杂度，并且不适合实时视频融合。

其他方法是基于帧融合，将两个视频逐帧融合，可以认为是图像融合。我们的工作主要集中在这方面。主流技术根据其基本理论分为四类，即多尺度变换，空间域，稀疏表示和基于人工神经网络的方法。我们介绍了上述融合方法。
（可以略看）
在过去的几十年中，多尺度变换 (MST) 方法得到了广泛的研究。MST的常规工具包括离散小波变换 (DWT），拉普拉斯金字塔 (LAP)，contourlet变换 (CT)，非子采样contourlet变换 (NSCT) [24]，非子采样shearlet变换 (NSST)，framelet变换 (FT) 、curvelet变换 (CVT) 和离散余弦变换 (DCT) 。通常，基于MST的红外和可见光图像融合方案包括三个步骤。首先，将源图像分解为一系列多尺度系数。接下来，根据特定规则对分解后的系数进行融合。最后，利用相应的逆多尺度变换生成融合图像。这些方法的关键是选择出色的分解方法和复杂的融合规则，这通常会导致复杂性增加。

基于空间领域的方法的核心思想是将高维数据转换为低维空间。低维空间包含源图像的固有结构，并且消耗更少的时间和内存。随后，主成分分析 (PCA)，独立成分分析 (ICA)[和非负矩阵分解 (NMF)已应用于融合领域，但导致了低质量的融合图像。
最近，Lu等人提出了一种基于目标分离和稀疏表示的融合方案。Yang等人构造了一个离散余弦变换字典来表示和融合源图像。Li等人通过结合低秩表示和字典学习设计了一种融合方法**。稀疏表示方法**通常分为四个主要步骤。首先，将源图像分解为几个补丁。其次，他们采用高质量的自然图像来训练和生成一个过完备的字典，每个补丁的稀疏系数都是通过稀疏编码获得的。之后，根据特定的融合策略对稀疏系数进行融合。最后，利用过完整的字典重建融合的框架。

人工神经网络一直是研究的重点。基于人工神经网络的图像融合方法从概念上可以分为两种类型: 脉冲耦合神经网络 (PCNN) 和卷积神经网络 (CNNs)。PCNN具有一些优越的特性，例如脉冲耦合和同步，可以在不需要训练的情况下用于合并分解系数。He等人介绍了一种可见光和红外图像融合方法，该方法在NSCT域中结合了mean-shift和PCNN。但是，通过多次实验和人工经验通常将PCNN的各种参数设置为固定值，导致缺乏鲁棒性和通用性。Kong等人提出了一种将PCNN与CNNs相结合的融合方案。他们使用CNNs获得了一系列表示高频和低频系数的卷积和线性层，并使用PCNN选择了相应的系数。最近，受图像风格转移的启发，Li等人开始研究深度特征提取和组合多层深度特征，这些特征是由VGG网络和l1-norm提取的，最大选择策略被用来构建权重图。之后，他们提出了一个由编码网络和解码网络构建的深度学习框架。利用编码网络提取特征，并通过解码网络生成融合图像。由于这些方法使用的是基于特征提取器的预先根深蒂固的CNN模型和手动设计的融合规则，因此无法自适应地集成或选择深度特征。
综上，我们提出了一种新颖的用于图像融合的端到端深度学习框架，并将单个图像融合扩展到可见光和红外视频融合。这种深度学习架构包括三个主要组成部分: 深度特征提取，融合和重建。具体来说，我们在注册的数据集上训练VIFNet，并将修改后的结构相似性 (M-SSIM) 度量和总变化 (TV)作为损失函数来实现无监督学习。

方法

Network Architecture

请添加图片描述

Vif-net体系结构如图2所示，由三个主要组件组成: 特征提取，融合和重建。可见图像和红外图像分别表示为IA和IB，它们被输入到双通道中。C11的通道和包含D11，D21和d31的密集块。通道B由C12和一个包含D12，D22和D32的密集块组成。第一层 (C11和C12) 包含3 × 3滤波器以提取低级特征，并且每个密集块中的三个卷积层也具有3 × 3滤波器。由于这两个通道共享相同的权重以提取相同类型的深度特征，因此该结构在降低计算复杂度方面也具有优势。在特征融合部分，我们尝试直接连接深层特征。最后，然后将融合层的结果通过另外五个卷积层 (C2，C3，C4，C5和C6)，以从融合特征重建融合结果。表I概述了网络的更详细的体系结构。
在这里插入图片描述

Loss Function

SSIM [39] 是两个不同图像之间结构相似性的有效度量。它结合了亮度、结构和对比度三个组成部分，全面测量图像质量。设x为参考图像和测试一下图像，其描述如下: 在这里插入图片描述
我们尝试设计一种专门用于红外和可见光图像融合的鲁棒损失函数，如已有学者所建议的，**局部补丁中的亮度比较是微不足道的，因为较低空间分辨率下的亮度不能测量全局亮度一致性，因此我们删除了这一部分并重写Eq(1) ** Eq(2) 如下
在这里插入图片描述
通常，热辐射信息越丰富，局部灰度值越大，并且可以通过像素的强度来测量热目标。因此，我们利用E(I | W) 来计算局部窗口中像素的平均强度，以测量SSIM的得分，其中Pi是像素i的值。
当E(IB | W) 大于或等于E(IA | W) 时，这意味着IB的本地窗口包含更多的热辐射，则SSIM引导网络保留红外特征，并且If的局部区域与IB相似的，反之亦然。通过这样做，设计了一个函数来自适应地学习深度特征，并且表达式显示为Eq(3) 和Eq(4)。
在这里插入图片描述
其中N表示单个图像中的滑动窗口总数。为了实现梯度变换并消除一些噪声，我们引入总变化函数来设计混合损失函数，描述如下:
请添加图片描述

相比之下，当LSSIM在损失函数中的权重相对较大时，可见细节会在一定程度上损失。为了实现红外和可见特征之间的近似权衡，我们设置了一个超参数 λ，该参数被设置为不同的值来权衡它们之间的影响; 详细的讨论显示在第四节的B部分中。损失函数描述如下
在这里插入图片描述

***Tip：***突然发现有人关注了我，大家应该都是在读文献，个人意见还没有开始复现敲代码的时候，看论文重点在于他的创新点，拿到一篇论文先不要想着底层框架实现的复杂性，而是看他的框架图，自己能不能看明白，对于一些看不明白的，这就是你在读这篇论文的重点；我所记录的都只是文章的一半，因为我还没有开始复现，我也无法理解许多文献中的实验配置，我会在后期复现时可以慢慢填补，以及增添一些新的东西。（以上均属个人看法）