无监督端到端框架:IVIF

news2025/8/3 6:42:17

VIF-Net: An Unsupervised Framework for Infrared and Visible Image Fusion

( VIF-Net: 红外和可见光图像融合的无监督框架)

(本文理解上的难易程度:易)
在本文中,我们提出了一种用于红外和可见图像融合的无监督端到端学习框架。我们首先使用可见和红外帧构建足够的基准训练数据集,这可以解决训练数据集的局限性。此外,由于缺乏标记的数据集,我们的体系结构是从鲁棒的混合损失函数派生的,该函数由改进的结构相似性 (M-SSIM)) 度量和总变化 (TV) 组成,通过设计一个可以自适应地融合热辐射和纹理细节并抑制噪声干扰的无监督学习过程。此外,我们的方法是端到端模型,它避免了设置手工制作的融合规则并降低了计算成本。

介绍

红外和可见光图像方法生成健壮的融合图像,该融合图像综合了区分特征并提高了整体感知质量。例如,图1给出了图像融合的概述,并且纹理细节和红外热特征分别以绿色和黄色标记。我们可以发现,通过融合操作可以提高融合图像的质量。
请添加图片描述
近年来,卷积神经网络 (CNNs) 在各种计算机视觉和图像处理任务中取得了许多重大突破,例如图像分割,超分辨率恢复,分类和显着性检测等。
(对于一些融合方法的介绍:略)
大多数融合方法都有计算成本的限制,其融合规则需要以手动方式设计。因此,我们开发了一个自适应的端到端深度融合框架,称为可见光和红外图像融合网络 (VIF-Net),如图2所示。首先,我们从不同的图像或视频场景中构建一个足够的基准训练数据集。然后,通过使用需要保留热辐射和环境特征的鲁棒混合损失函数来训练深度网络。具体而言,混合损失函数由修正的结构相似性 (M-SSIM) 质量度量和总变化 (TV) 组成。最后,我们测试和分析了我们的模型,广泛的实验结果表明,在主观和客观评估中,所提出的体系结构的性能均优于最新方法。

贡献

1)训练数据集: 一个新的可见和红外数据集用于训练深度融合网络。我们在不同的真实场景中从TNO和INO视频数据集收集源数据,以增强训练数据集的多样性和鲁棒性。
2)端到端模型: 提出了一种新颖的基于CNN架构的无监督学习方案,用于可见光和红外图像融合,该方案解决了训练缺乏地面真相的局限性。
3)广泛的实验评估: 将VIF-Net与公共图像融合数据集上的代表性方法进行了比较,评估结果证明了我们方法的有效性。此外,我们进一步展示了VIF-Net在视频融合方面的潜力。

相关工作

已经提出了用于可见光和红外图像或视频融合的各种方法。它们大致分为两类: 基于视频的融合方法和基于帧的融合方法。基于视频的方法取决于三维多尺度变换 (3D-MST) 工具。通常,视频信号被视为两个空间维度和一个时间维度的组合,并且三个维度同时融合。Zhang等人提出了一种使用3D survelet变换和3D均匀离散curvelet变换融合视频的视频融合方案。不幸的是,基于3D变换的方法具有很高的计算复杂度,并且不适合实时视频融合。

其他方法是基于帧融合,将两个视频逐帧融合,可以认为是图像融合。我们的工作主要集中在这方面。主流技术根据其基本理论分为四类,即多尺度变换,空间域,稀疏表示和基于人工神经网络的方法。我们介绍了上述融合方法。
(可以略看)
在过去的几十年中,多尺度变换 (MST) 方法得到了广泛的研究。MST的常规工具包括离散小波变换 (DWT),拉普拉斯金字塔 (LAP),contourlet变换 (CT),非子采样contourlet变换 (NSCT) [24],非子采样shearlet变换 (NSST),framelet变换 (FT) 、curvelet变换 (CVT) 和离散余弦变换 (DCT) 。通常,基于MST的红外和可见光图像融合方案包括三个步骤。首先,将源图像分解为一系列多尺度系数。接下来,根据特定规则对分解后的系数进行融合。最后,利用相应的逆多尺度变换生成融合图像。这些方法的关键是选择出色的分解方法和复杂的融合规则,这通常会导致复杂性增加。

基于空间领域的方法的核心思想是将高维数据转换为低维空间。低维空间包含源图像的固有结构,并且消耗更少的时间和内存。随后,主成分分析 (PCA),独立成分分析 (ICA)[和非负矩阵分解 (NMF)已应用于融合领域,但导致了低质量的融合图像。
最近,Lu等人提出了一种基于目标分离和稀疏表示的融合方案。Yang等人构造了一个离散余弦变换字典来表示和融合源图像。Li等人通过结合低秩表示和字典学习设计了一种融合方法**。稀疏表示方法**通常分为四个主要步骤。首先,将源图像分解为几个补丁。其次,他们采用高质量的自然图像来训练和生成一个过完备的字典,每个补丁的稀疏系数都是通过稀疏编码获得的。之后,根据特定的融合策略对稀疏系数进行融合。最后,利用过完整的字典重建融合的框架。

人工神经网络一直是研究的重点。基于人工神经网络的图像融合方法从概念上可以分为两种类型: 脉冲耦合神经网络 (PCNN) 和卷积神经网络 (CNNs)。PCNN具有一些优越的特性,例如脉冲耦合和同步,可以在不需要训练的情况下用于合并分解系数。He等人介绍了一种可见光和红外图像融合方法,该方法在NSCT域中结合了mean-shift和PCNN。但是,通过多次实验和人工经验通常将PCNN的各种参数设置为固定值,导致缺乏鲁棒性和通用性。Kong等人提出了一种将PCNN与CNNs相结合的融合方案。他们使用CNNs获得了一系列表示高频和低频系数的卷积和线性层,并使用PCNN选择了相应的系数。最近,受图像风格转移的启发,Li等人开始研究深度特征提取和组合多层深度特征,这些特征是由VGG网络和l1-norm提取的,最大选择策略被用来构建权重图。之后,他们提出了一个由编码网络和解码网络构建的深度学习框架。利用编码网络提取特征,并通过解码网络生成融合图像。由于这些方法使用的是基于特征提取器的预先根深蒂固的CNN模型和手动设计的融合规则,因此无法自适应地集成或选择深度特征。
综上,我们提出了一种新颖的用于图像融合的端到端深度学习框架,并将单个图像融合扩展到可见光和红外视频融合。这种深度学习架构包括三个主要组成部分: 深度特征提取,融合和重建。具体来说,我们在注册的数据集上训练VIFNet,并将修改后的结构相似性 (M-SSIM) 度量和总变化 (TV)作为损失函数来实现无监督学习。

方法

Network Architecture

请添加图片描述

Vif-net体系结构如图2所示,由三个主要组件组成: 特征提取,融合和重建。可见图像和红外图像分别表示为IA和IB,它们被输入到双通道中。C11的通道和包含D11,D21和d31的密集块。通道B由C12和一个包含D12,D22和D32的密集块组成。第一层 (C11和C12) 包含3 × 3滤波器以提取低级特征,并且每个密集块中的三个卷积层也具有3 × 3滤波器。由于这两个通道共享相同的权重以提取相同类型的深度特征,因此该结构在降低计算复杂度方面也具有优势。在特征融合部分,我们尝试直接连接深层特征。最后,然后将融合层的结果通过另外五个卷积层 (C2,C3,C4,C5和C6),以从融合特征重建融合结果。表I概述了网络的更详细的体系结构。
在这里插入图片描述

Loss Function

SSIM [39] 是两个不同图像之间结构相似性的有效度量。它结合了亮度、结构和对比度三个组成部分,全面测量图像质量。设x为参考图像和测试一下图像,其描述如下:在这里插入图片描述
我们尝试设计一种专门用于红外和可见光图像融合的鲁棒损失函数,如已有学者所建议的,**局部补丁中的亮度比较是微不足道的,因为较低空间分辨率下的亮度不能测量全局亮度一致性,因此我们删除了这一部分并重写Eq(1) ** Eq(2) 如下
在这里插入图片描述
通常,热辐射信息越丰富,局部灰度值越大,并且可以通过像素的强度来测量热目标。因此,我们利用E(I | W) 来计算局部窗口中像素的平均强度,以测量SSIM的得分,其中Pi是像素i的值。
当E(IB | W) 大于或等于E(IA | W) 时,这意味着IB的本地窗口包含更多的热辐射,则SSIM引导网络保留红外特征,并且If的局部区域与IB相似的,反之亦然。通过这样做,设计了一个函数来自适应地学习深度特征,并且表达式显示为Eq(3) 和Eq(4)。
在这里插入图片描述
其中N表示单个图像中的滑动窗口总数。为了实现梯度变换并消除一些噪声,我们引入总变化函数来设计混合损失函数,描述如下:
请添加图片描述

相比之下,当LSSIM在损失函数中的权重相对较大时,可见细节会在一定程度上损失。为了实现红外和可见特征之间的近似权衡,我们设置了一个超参数 λ,该参数被设置为不同的值来权衡它们之间的影响; 详细的讨论显示在第四节的B部分中。损失函数描述如下
在这里插入图片描述

***Tip:***突然发现有人关注了我,大家应该都是在读文献,个人意见还没有开始复现敲代码的时候,看论文重点在于他的创新点,拿到一篇论文先不要想着底层框架实现的复杂性,而是看他的框架图,自己能不能看明白,对于一些看不明白的,这就是你在读这篇论文的重点;我所记录的都只是文章的一半,因为我还没有开始复现,我也无法理解许多文献中的实验配置,我会在后期复现时可以慢慢填补,以及增添一些新的东西。(以上均属个人看法)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/15925.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

css 动画实现节流效果

今天在做节流操作时,无意间看到可以用css动画去实现节流效果,然后一顿操作发现果然可以,记录一下 CSS pointer-events 属性 一、 用css中的pointer-events(指针事件)、animation(动画)以及:act…

WordPress做缓存Memcached Is Your Friend+Batcache

宝塔面板有两个地方有Memcached,一个是在软件商店的运行环境里面,一个是在php扩展里面,我们先安装PHP扩展中的Memcached ,然后wp后台搜索Memcached Is Your Friend安装插件。WordPress做缓存很给力。缓存命中率保持在 90%以上的WordPress 本地缓存加速方案。 默认我们看到命…

E-Payment Integrator Delphi Edition

E-Payment Integrator Delphi Edition 通过为组件提供处理信用卡和电子支票交易的直观界面,减轻了集成电子支付支持的复杂性。开发人员无需学习复杂的套接字编程或安全实现。通过使用电子支付集成器,开发人员能够针对当前支持的任何支付网关进行定位和开…

比较复杂的策略路由综合实验

下面是网络技能大赛策略这个模块的要求,单独拿出来整理一下 R1、R2、R3间运行OSPF,进程号20,规划单区域:区域0; VSU、R2、R3间运行OSPF,进程号21,规划单区域:区域0; …

JavaScript之事件高级(53rd)

1、注册事件(绑定事件) 给元素添加事件,称为注册事件或者绑定事件。 注册事件有两种方式:传统方式和方法监听注册方式 1、addEventListener事件监听方式 1、eventTarget.addEventListener()方法将指定的监听器注册到 eventTarget(目标对…

springMVC异常处理的知识点+异常处理案例

springMVC异常处理的知识点异常处理案例 异常介绍: 我们知道系统中的异常包括两类:预期异常和运行时异常RuntimeException,前者通过捕获异常从而获取异常信息,后者主要通过规范代码开发、测试等手段减少运行时异常的发生 在SpringMVC处理异…

有关服务器虚拟化的常见问题解答

虚拟化”一词经常使用,尤其是与服务器相关的时候。以下是一些有关服务器虚拟化常见问题的解答。 什么是服务器虚拟化? 虚拟化是一个经常应用于范围广泛的技术的术语。从本质上讲,虚拟化技术就是使用分布式软件硬件。在服务器虚拟化领域,这意…

Android

直接运行 最新版的 apktool 可以通过brew安装,命令如下 brew install apktool # 验证安装结果apktool -version (Mac)反编译Android APK详细操作指南[ApkTool,dex2jar,JD-GUI] - CrazyCodeBoy的技术博客官网|CrazyCodeBoy|Devio|专注移动技术开发(Android&I…

【计算机网络】广域网协议分析

注:最后有面试挑战,看看自己掌握了吗 文章目录广域网WAN广域网局域网区别PPP协议----链路层------广域网PPP协议组成3个ppp状态图PPP协议帧格式HDLC协议--------链路层------广域网帧格式------无监信PPP协议和HDLC🍃博主昵称:一拳…

通用Mapper获取数据表中id为0解决方法。千万别瞎改int为integer了

项目场景: 最近准备自己写一个框架。由于是舍弃了成熟框架,所以在集成一些组件的时候,发现了一些之前没有注意过的问题。 这次是集成通用mapper时出现的一个问题。。。 问题描述 使用通用Mapper的selectAll()方法后,得到的id值都…

Java【抽象类和接口】是什么?

文章目录前言一、抽象类1.什么是抽象类2.抽象类的特征3.抽象类的作用二、接口1.什么是接口2.语法规范3.接口的使用4.接口的特征5.实现多个接口6.接口间的继承总结前言 前篇文章分享过了 面向对象语言的三大特征:封装,继承,多态 本篇呢将继续…

LCR表测电容怎么实现连续测试?ATECLOUD云测试平台帮您解决

河南某企业在生产测试中需要用到LCR表测试电容的容量和损耗,目前在使用是德科技E4980a LCR 测试数据时,发现不能连续测试,不能自动记录数据。通过和纳米软件Namisoft沟通,希望我们可以实现连续测试并将测试数据自动记录&#xff0…

steam搬砖项目,当下最稳定长久的

我为什么这么推荐普通人来做CSGO搬砖,最主要的原因就两点,一是平台流量大知道的人少,二就是不需要什么成本! CSGO是基于steam衍生出来的,steam的流量池有多大,想必大家都心知肚明, Steam平台是…

实验(一):开发环境的安装及基本操作

一、实验目的与任务 实验目的: 1. 掌握KeilC集成开发环境的安装及基本操作; 2. 掌握Protues仿真软件的安装及基本操作。 任务: 1.完成KeilC集成开发环境的安装,建立工程; 2. 完成Protues仿真软件的安装,建立…

[附源码]java毕业设计票务销售网站

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

Gartner发布首份中国RPA魔力象限报告,弘玑Cyclone被重点推荐

11月17日,国际权威研究机构Gartner重磅发布首份中国RPA魔力象限报告:《China Context: Magic Quadrant for Robotic Process Automation》。 毫无悬念,在2022全球RPA魔力象限报告(Gartner RPA MQ)中表现优异的弘玑Cyc…

魔百和CM311-1A_YST、(YM)_安卓9_S905L3A_默认开启ADB_纯净精简语音_完美线刷包

魔百和CM311-1A_YST、(YM)_安卓9_S905L3A_默认开启ADB_纯净精简语音_完美线刷包 固件特点: 1、修改dns,三网通用; 2、开放原厂固件屏蔽的市场安装和u盘安装apk; 3、无开机广告,无系统更新,不在被强制升…

什么是云原生的应用?

云原生应用的三个核心概念 链接:https://pan.baidu.com/s/10ocbDCGsdS3i7hEzvUlatA?pwdm9nr 提取码:m9nr –来自百度网盘超级会员V5的分享 脑图大家可以下载使用并补充 微服务 什么是单体应用? 传统的单体应用架构都是三层模式&#xff1…

分治策略与递归

目录分治策略分治概念递归概念分治策略的特征分治法步骤举例阶乘斐波那契数列打印数组数组中查找元素分治策略 分治概念 任何可以用计算机求解的问题所需要的时间都与其规模有关。问题规模越小,所解题所需要的时间就越小,从而也较容易处理。例如&#…

11.9 至 11.17 四道典型题记录: Counter 弹出 | map函数 | 子集求取 | 有序字符桶分装

11.9 至 11.17 四道典型题记录: Counter 弹出 | map函数 | 子集求取 | 有序字符桶分装 昨天休息的时候一直在想应该学习哪种语言,我想这也是好多人发愁无法下手的原因之一,今年找工作的时候发现更多的研究岗位需要的是 C 语言 或 C 语言&…