图像融合论文阅读:MURF: Mutually Reinforcing Multi-Modal Image Registration and Fusion

news2025/5/24 2:26:50

@article{xu2023murf,
title={MURF: Mutually Reinforcing Multi-modal Image Registration and Fusion},
author={Xu, Han and Yuan, Jiteng and Ma, Jiayi},
journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
year={2023},
publisher={IEEE}
}


论文级别:SCI A1
影响因子:23.6

📖[论文下载地址]


文章目录

  • 🌻【如侵权请私信我删除】
  • 📖论文解读
    • 🔑关键词
    • 💭核心思想
    • 🪢网络结构
      • 🪢SIEM
      • 🪢MCRM
      • 🪢F2M
    • 📉损失函数
    • 🔢数据集
    • 🎢训练设置
    • 🔬实验
      • 📏评价指标
      • 🥅Baseline
      • 🔬实验结果
  • 🚀传送门
    • 📑图像融合相关论文阅读笔记
    • 📚图像融合论文baseline总结
    • 📑其他论文
    • 🎈其他总结
    • ✨精品文章总结


🌻【如侵权请私信我删除】

📖论文解读

马佳义大佬团队2023年的一篇论文。该论文之前的版本是RFNet。下图为两个版本的区别和改进
在这里插入图片描述

MURF主要利用三个模块:

  • SIEM 共享特征提取(shared information extraction module)

捕获跨多个模式共享的信息。它有助于将多模态配准问题转化为公共空间中的单模态配准问题。然后在配准模块中使用提取函数。

  • MCRM 多尺度粗配准(multi-scale coarse registration module)

进行全局校正。利用SIEM提取的表示建立配准约束,并将其用于MCRM网络的训练。MCRM输出粗配准后的图像 I x R I_x^R IxR

  • F2M 精准配准和融合(fine registration and fusion module)

I x R I_x^R IxR I y I_y Iy作为输入,得到最终的融合图像 I f I_f If

🔑关键词

Multi-modal images, image registration, image fusion, contrastive learning.
多模态图像,图像配准,图像融合,对比学习

💭核心思想

如下图所示,以往的方法是将配准和融合分开,作者提出的新方法是将两者结合并相互促进。
图像配准采用由粗到细的方法进行处理。对于粗配准,SIEM首先将多模态图像转化为单模态信息,以消除模态间差异。在此基础上,MCRM通过多尺度仿射变换对全局刚性视差进行逐步校正。在单个模块中实现精细配准和融合,进一步提高了配准精度和融合性能。图像融合时在保留源信息的同时进行了纹理增强。
在这里插入图片描述
作者认为【图像融合可以反向消除未配准】,因为:

  • 融合图像来源于不同模态,减轻了模态差异,降低了配准难度
  • 融合过程去除了冗余信息,减少了这些信息对配准的负面影响
  • 梯度稀疏可以作为融合评价标准,以反馈的方式提高配准精度

参考链接
[什么是图像融合?(一看就通,通俗易懂)]

🪢网络结构

作者提出的网络结构如下所示。
在这里插入图片描述
该网络模型由SIEM, MCRM和F2M组成。上节已经简单介绍了各个模块的作用。接下来让我们看模块内部在干嘛

🪢SIEM

在这里插入图片描述

采用了【对比学习】的思想。相同场景的图像对应于较近的表示,而不同场景的图像对应于较远的表示。

扩展学习链接
对比学习(contrastive learning)

多模态数据集包括了配准/粗配准的图像对 { I x i , I y i } i = 1 K \{I_x^i,I_y^i\}_{i=1}^K {Ixi,Iyi}i=1K,K表示图像对的数量。
I x I_x Ix I y I_y Iy分别表示不同模态 X \mathcal X X Y \mathcal Y Y的图像。
这个模块的目标是学习两个函数 f θ 1 c l ( ⋅ ) f_{\theta1}^{cl}(·) fθ1cl() f θ 2 c l ( ⋅ ) f_{\theta2}^{cl}(·) fθ2cl(),将不同模态的图像映射到共享潜在空间,从而提取其潜在表示 z x i = f θ 1 c l ( I x i ) z_x^i=f_{\theta1}^{cl}(I_x^i) zxi=fθ1cl(Ixi) z y i = f θ 2 c l ( I y i ) z_y^i=f_{\theta2}^{cl}(I_y^i) zyi=fθ2cl(Iyi)
{ I x i , I y i } \{I_x^i,I_y^i\} {Ixi,Iyi}表示相同场景的图像对,因此 { z x i , z y i } \{z_x^i,z_y^i\} {zxi,zyi}是正对(positive pairs),应该被拉入潜在空间。
{ I x i , I y j ( i ≠ j ) } \{I_x^i,I_y^{j(i \neq j)}\} {Ixi,Iyj(i=j)}或者 { I x i , I x j ( i ≠ j ) } \{I_x^i,I_x^{j(i \neq j)}\} {Ixi,Ixj(i=j)}表示多模态或者不同场景的单模态图像,是负对,应该被分离。

用来学习 f θ 1 c l ( ⋅ ) f_{\theta1}^{cl}(·) fθ1cl() f θ 2 c l ( ⋅ ) f_{\theta2}^{cl}(·) fθ2cl()对比学习的损失函数被定义为InfoNCE损失:
在这里插入图片描述

在这里插入图片描述
s ( ⋅ ) s(·) s()是鉴别器函数,正对值高负对值低。
在这里插入图片描述
同时,作者利用旋转等价来细化潜表示的精细度。即对 f θ 1 c l ( ⋅ ) f_{\theta1}^{cl}(·) fθ1cl() f θ 2 c l ( ⋅ ) f_{\theta2}^{cl}(·) fθ2cl()进行像素级旋转和反向旋转。

🪢MCRM

在这里插入图片描述

在这里插入图片描述

在训练阶段,使用上一节训练好的 f θ 1 c l ( ⋅ ) f_{\theta1}^{cl}(·) fθ1cl() f θ 2 c l ( ⋅ ) f_{\theta2}^{cl}(·) fθ2cl()提取 I x I_x Ix I y I_y Iy的共享信息 z x z_x zx z y z_y zy,然后利用仿射变换(affine transform)提高 z x z_x zx z y z_y zy之间的配准度。注意,训练阶段SIEM里参数是固定的。在测试阶段,只有MCRM用于粗配准。
在单尺度的网络中,使用大的卷积核和较深的网络结构是常态,为了解决这个问题,作者采用了一种多尺度渐进式配准策略减少参数量、加快收敛速度。
在这里插入图片描述
这个图应该从下往上看,即一开始训练AffineNet是下采样4倍的时候,然后在下采样2倍的时候继续,使用下采样4倍的参数作为粗空间变换。同理,到原尺寸的时候,使用4倍和2倍的参数作为粗空间变换,得到最精细的参数p1。即输出为粗配准的图像 I x R = S T ( I x , p 1 P ↓ 2 P ↓ 4 ) I_x^R=ST(I_x,p_1P_{↓2}P_{↓4}) IxR=ST(Ix,p1P2P4)
那么空间变换是什么样子的呢?
给定一个图像X和仿射参数p,在常规采样网格上使用p,生成一个H×W×2的形变场 ϕ \phi ϕ,代表了X中像素的变形。形变场 ϕ \phi ϕ的两个通道分别代表垂直方向和水平方向:
在这里插入图片描述

该模块的损失函数为:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

🪢F2M

这个模块在训练分为两个阶段,融合阶段和微配准阶段。
在这里插入图片描述
测试阶段,将粗配准的图像 I x R I_x^R IxR I y I_y Iy输入变形块进行空间变换以及矫正局部视差,得到变形后的 I x R I_x^R IxR I x F I_x^F IxF。然后通过后续的提取层、梯度通道注意力块、重构层融合得到最终的融合图像 I f I_f If

图像融合的损失函数为:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在训练微配准网络的时候,生成了一个局部平滑的非刚性形变场 ϕ n r \phi^{nr} ϕnr
在这里插入图片描述

微调配准损失函数:
在这里插入图片描述在这里插入图片描述

📉损失函数

上面分节已介绍

🔢数据集

图像融合数据集链接
[图像融合常用数据集整理]

🎢训练设置

在这里插入图片描述

🔬实验

📏评价指标

  • MG
  • EI
  • VIF

参考资料
[图像融合定量指标分析]

🥅Baseline

  • DenseFuse, DIF-Net, IFCNN, MDLatLRR, RFN-Nest, U2Fusion

✨✨✨参考资料
✨✨✨强烈推荐必看博客[图像融合论文baseline及其网络模型]✨✨✨

🔬实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

更多实验结果及分析可以查看原文:
📖[论文下载地址]


🚀传送门

📑图像融合相关论文阅读笔记

📑[(A Deep Learning Framework for Infrared and Visible Image Fusion Without Strict Registration]
📑[(APWNet)Real-time infrared and visible image fusion network using adaptive pixel weighting strategy]
📑[Dif-fusion: Towards high color fidelity in infrared and visible image fusion with diffusion models]
📑[Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion]
📑[LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images]
📑[(DeFusion)Fusion from decomposition: A self-supervised decomposition approach for image fusion]
📑[ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion]
📑[RFN-Nest: An end-to-end resid- ual fusion network for infrared and visible images]
📑[SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images]
📑[SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer]
📑[(MFEIF)Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion]
📑[DenseFuse: A fusion approach to infrared and visible images]
📑[DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pair]
📑[GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF]
📑[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
📑[IFCNN: A general image fusion framework based on convolutional neural network]
📑[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
📑[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
📑[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
📑[FusionGAN: A generative adversarial network for infrared and visible image fusion]
📑[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
📑[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
📑[U2Fusion: A Unified Unsupervised Image Fusion Network]
📑综述[Visible and Infrared Image Fusion Using Deep Learning]

📚图像融合论文baseline总结

📚[图像融合论文baseline及其网络模型]

📑其他论文

📑[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]

🎈其他总结

🎈[CVPR2023、ICCV2023论文题目汇总及词频统计]

✨精品文章总结

✨[图像融合论文及代码整理最全大合集]
✨[图像融合常用数据集整理]

如有疑问可联系:420269520@qq.com;
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力
祝各位早发paper,顺利毕业~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1355912.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java进阶 1-2 枚举

目录 常量特定方法 职责链模式的枚举实现 状态机模式的枚举实现 多路分发 1、使用枚举类型实现分发 2、使用常量特定方法实现分发 3、使用EnumMap实现分发 4、使用二维数组实现分发 本笔记参考自: 《On Java 中文版》 常量特定方法 在Java中,我们…

数字孪生技术详解

在线工具推荐:3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 数字孪生技术正在迅速彻底改变企业的运营方式。借助数字孪生技术&#xff0c…

洗地机什么牌子最好?家用洗地机推荐指南

随着人们对健康和卫生的关注日益增长,洗地机成为了现代家庭清洁的必备工具。然而,在市场上琳琅满目的洗地机品牌中,洗地机哪个品牌最好最实用呢?这是消费者最为关心的问题。现本文将为您介绍几个备受推崇的洗地机品牌,帮助您在众…

拖拽式工作流好用吗?有何特点?

大家都知道,随着行业的进步和发展,低代码技术平台也迎来了蓬勃发展期。很多企业喜欢使用低代码实现提质增效的办公效果,拖拽式工作流是其中一个功能,是助力企业实现流程化办公的得力助手。那么,拖拽式工作流好用吗&…

数字信号处理期末复习——计算大题(一)

个人名片: 🦁作者简介:一名喜欢分享和记录学习的在校大学生 🐯个人主页:妄北y 🐧个人QQ:2061314755 🐻个人邮箱:2061314755qq.com 🦉个人WeChat:V…

【RocketMQ每日一问】RocketMQ中raft的应用?

1.rocketmq中raft算法实现方式 RocketMQ 中实现 Raft 算法的模块是 DLedger,它是一种基于 Raft 协议的分布式日志存储模式,用于提供高可用性和数据一致性的保证,保证消息的可靠性和持久化存储。 在 DLedger 中,每个节点都维护着…

vue3顶部内容固定定位,下面内容可以向上滚动

功能要求:一个div里有两个模块儿,顶部按钮模块儿和下面的内容区域模块儿,顶部按钮模块儿固定在顶部不随滚动条滚动,下面内容区域可以滚动 如图: 思路是: 1、顶部按钮固定定位,会脱离文档流&…

【无标题】一本好书

(https://img-blog.csdnimg.cn/9e3c2302242149e4ac7dbc834bd5e027.jpg)(https://img-blog.csdnimg.cn/3427ed8648ff46bbb496ed512e0aa9cd.jpg1

109-Gradle构建工具的学习

Gradle构建工具的学习 Gradle 简介: Gradle 是一款Google 推出的基于 JVM、通用灵活的项目构建工具,支持 Maven,JCenter 多种第三方仓库,支持传递性依赖管理、废弃了繁杂的xml 文件,转而使用简洁的、支持多种语言&am…

懒加载的el-tree中没有了子节点之后还是有前面icon箭头的展示,如何取消没有子节点之后的箭头显示

没有特别多的数据 <template><el-tree:props"props":load"loadNode"lazyshow-checkbox></el-tree></template><script>export default {data() {return {props: {label: name,children: zones,isLeaf:"leaf",//关…

nginx下upstream模块详解

目录 一&#xff1a;介绍 二&#xff1a;特性介绍 一&#xff1a;介绍 Nginx的upstream模块用于定义后端服务器组&#xff0c;以及与这些服务器进行通信的方式。它是Nginx负载均衡功能的核心部分&#xff0c;允许将请求转发到多个后端服务器&#xff0c;并平衡负载。 在upst…

如潮好评!优秀选手视角下的第二届粤港澳大湾区(黄埔)国际算法算例大赛

为发挥国家实验室作用、推动地区大数据与人工智能算法的生态体系建设&#xff0c;琶洲实验室&#xff08;黄埔&#xff09;受广州市黄埔区政府委托&#xff0c;于 2022 年创办粤港澳大湾区&#xff08;黄埔&#xff09;国际算法算例大赛&#xff0c;推动原始创新、赋能社会经济…

以 Serverfull 方式运行无服务器服务

当前 IT 架构中最流行的用例是从 Serverfull 转向 Serverless 设计。在某些情况下&#xff0c;我们可能需要以 Serverfull 方式设计服务或迁移到 Serverfull 作为运营成本的一部分。 在本文中&#xff0c;我们将展示如何将 Kumologica flow 作为 Docker 容器运行。通常&#x…

力扣322. 零钱兑换(java语言实现 完全背包问题)

Problem: 322. 零钱兑换 文章目录 题目描述思路解题方法复杂度Code 题目描述 思路 该题目可以归纳为完全背包问题&#xff0c;最少需要多少物品能填满背包。该类问题大体思路如下 状态&#xff1a; int dp[ n n n][ w 1 w 1 w1] (其中 n n n表示有 n n n个物品&#xff0c; …

Python常用模块之hashlib

常用模块 - hashlib模块 一、简介 Python的hashlib提供了常见的摘要算法&#xff0c;如MD5、SHA1、SHA224、SHA256、SHA384、SHA512等算法。 什么是摘要算法呢&#xff1f;摘要算法又称哈希算法、散列算法。它通过一个函数&#xff0c;把任意长度的数据转换为一个长度固定的…

14.用户管理

目录 1、权限表 1、user表 1.用户列 2.权限列 3.安全列 4.资源控制列 2、db表和host 表 1.用户列 2.权限列 3. tables_priv 表和 columns _priv 表 4.procs_priv 表 2、账户管理 1. 登录和退出MySQL服务器 2、创建普通用户&#xff1a; 1.使用CREATE USER语创建…

URLDecoder: Illegal hex characters in escape (%) pattern - negative value

1、前提&#xff1a; 使用URLDecoder.decode(“字符串”“utf-8”)&#xff1b;进行解码出现上述问题 2、原因&#xff1a; 字符串的内容出现%后不是一个16进制的数&#xff08;即从0——FF&#xff09; 3、解决方法&#xff1a; 检查传入的字符看是否%后有不是16进制的数…

【python测验】数字游戏 取模数 数位dp

这题目看得人感觉要失去梦想…… 题目&#xff1a; 看不懂也做不出来&#xff0c;python方法未知&#xff0c;记录几个可供参考的帖子。 LightOJ 1068 Investigation 算法提高篇–动态规划&#xff08;八&#xff09;&#xff1a;数位DP&#xff08;3&#xff09;

Python处理音频

从video中抽取audio from moviepy.editor import VideoFileClip from pydub import AudioSegmentvideo_path /opt/audio/audios/video1.mp4 audio_path /opt/audio/audios/video1.wav # 提取的音频保存路径# 加载视频文件 video VideoFileClip(video_path)# 提取音频 audi…