【技术追踪】InverseSR:使用潜在扩散模型进行三维脑部 MRI 超分辨率重建(MICCAI-2023)

news2025/5/18 20:37:35

  LDM 实现三维超分辨率~


论文:InverseSR: 3D Brain MRI Super-Resolution Using a Latent Diffusion Model
代码:https://github.com/BioMedAI-UCSC/InverseSR


0、摘要

  从研究级医疗机构获得的高分辨率(HR)MRI 扫描能够提供关于成像组织的精确信息。然而,常规临床 MRI 扫描通常为低分辨率(LR),并且由于扫描参数根据医疗机构的本地需求进行调整,其对比度和空间分辨率存在很大差异。(提出实际问题

  针对 MRI 超分辨率(SR)的端到端深度学习方法已经有所提出,但这些方法在输入分布发生变化时,每次都需要重新训练。(当前研究不足

  为解决这一问题,本文提出了一种新颖的方法,该方法利用了最先进的三维脑部生成模型——潜在扩散模型(LDM),该模型基于 UK BioBank 数据集进行训练,用于提升临床 MRI 扫描的分辨率。(本文研究目的

  LDM 作为生成先验,能够捕捉三维 T1 加权脑部 MRI 的先验分布。基于脑部 LDM 的架构,本文发现不同的 MRI SR 场景适合不同的方法,因此提出了两种新策略:
  (1)对于稀疏性较高的 SR,通过 LDM 的解码器 D \mathcal D D 以及确定性去噪扩散隐式模型(DDIM)进行逆向操作,这种方法称为 InverseSR(LDM);
  (2)对于稀疏性较低的 SR,仅通过 LDM 解码器 D \mathcal D D 进行逆向操作,这种方法称为 InverseSR(Decoder);

  这两种方法在 LDM 模型中搜索不同的潜在空间,以找到将给定的低分辨率 MRI 映射到高分辨率的最佳潜在编码。生成模型的训练过程与 MRI 欠采样过程无关,确保了本文的方法能够广泛应用于具有不同输入测量的多种 MRI 超分辨率问题。

  本文在来自 IXI 数据集的 100 多个脑部 T1 加权 MRI 上验证了该方法。实验结果表明,LDM 提供的强大先验可用于 MRI 重建。


1、引言

1.1、当前局限

  (1)基于 CNN 的监督训练需要配对图像,这导致每次输入分布发生变化时都需要重新训练,在 MRI 超分辨率中,获取能够涵盖不同机构临床脑 MRI 扫描协议和分辨率变化的配对训练数据具有挑战性;
  (2)通过生成模型构建图像先验最近成为图像超分辨率领域的一种流行方法,但目前仅限于 2D 切片;

1.2、本文贡献

  (1)提出了一种解决 MRI 超分辨率问题的方法,通过 LDM 构建强大的三维原生图像先验;
  (2)通过在预训练生成模型的潜在空间中找到最优潜在编码 z 来解决逆问题,这可以利用已知的退化函数 f f f 恢复给定的低分辨率 MRI 图像 I I I ;(云里雾里的…
  (3)提出了两种新策略:Inverse(LDM),它通过确定性的 DDIM 模型进一步逆转输入图像,以及 InverseSR(Decoder),它通过 LDM 模型的解码器 D \mathcal D D 和退化函数 f f f 逆转输入图像;


2、方法

2.1、3D 脑 LDM

  利用最先进的 LDM 为 3D 脑部 MRI 创建高质量的先验。LDM 包含两个组成部分:自编码器和扩散模型。编码器 E \mathcal E E 将每个高分辨率 T1w 脑 MRI x ∼ p d a t a ( x ) x∼p_{data}(x) xpdata(x) 映射到大小为 20×28×20 的潜在向量 z 0 = E ( x ) z_0 = \mathcal E(x) z0=E(x)。解码器 D \mathcal D D 被训练成将潜在向量 z 0 z_0 z0 映射回 MRI 图像域 x x x

  使用 L1 损失感知损失基于 patch 的对抗性损失潜在空间中的 KL 正则化项的损失组合,在 UK Biobank 上的 31740 个 T1w MRI 上对自编码器进行训练。自编码器在经过预处理的 MRI 图像上使用 UniRes 进行训练,这些图像被转换到一个具有 1mm³ 体素大小的共同 MNI 空间中,并且在 LDM 训练过程中保持不变。

  使用 T1w 脑部 MRI 的潜在表示来训练 LDM,通过以下目标训练条件 U-Net ϵ θ ϵ_θ ϵθ 以预测噪声:
在这里插入图片描述
  DDIM 已被用于脑部 LDM,以在推理过程中替代去噪扩散概率模型(DDPM),从而减少反向步骤的数量,同时将性能损失降至最低。

  网络 ϵ θ ϵ_θ ϵθ 是基于四个条件变量 C \mathcal C C 进行条件化的:年龄、性别、脑室体积和脑体积,这些都是通过交叉注意力层引入 LDM。性别是一个二元变量,而其他协变量则缩放至 [ 0 , 1 ] [0,1] [0,1]。最后,预训练的解码器将潜在向量映射到高分辨率 MRI x ~ = D ( z 0 ) \widetilde x= \mathcal D(z_0) x =D(z0)。大脑 LDM 的架构如 图1 所示。

  
Figure 1 | 训练过程与 MRI SR 两种处理方法:(左)Brain LDM 有两阶段的训练过程;首先,自编码器被预训练,用于将 T1 加权脑部 MRI 映射到一个潜在编码 z 0 = E ( x ) z_0 = \mathcal E(x) z0=E(x),随后,扩散模型在潜空间中学习生成 z 0 z_0 z0,在推理过程中,DDIM 被用于减少采样步骤,同时保证性能下降很小。(右)基于脑部 LDM 的架构提出了两种处理 MRI SR 不同场景的方法:1) InverseSR(LDM):对于高稀疏度的 SR,使用确定性的 DDIM 和解码器 D \mathcal D D 优化潜在编码 z T ∗ z_T^∗ zT 及其相关的条件变量 C ∗ \mathcal C^* C,将潜在编码映射到脑部 MRI;2) InverseSR(Decoder):对于低稀疏度的 SR,仅使用解码器 D \mathcal D D 优化 z 0 ∗ z_0^∗ z0,将潜在编码映射到脑部 MRI;

在这里插入图片描述

2.2、确定性 DDIM 采样

  为了获得能够将给定的噪声样本重建为高分辨率图像的潜在表示 z T z_T zT,采用确定性的 DDIM 采样:
在这里插入图片描述
  其中 α 1 : T ∈ ( 0 , 1 ] T α_{1:T}∈(0,1]^T α1:T(0,1]T 是一个随时间递减的序列,右边第一项表示 “预测的 x 0 x_0 x0”,第二项可以理解为“指向 x t x_t xt 的方向”。

2.3、退化函数 f f f

  假设存在一个已知的退化函数 f f f,它被应用于从生成模型中获得的高分辨率图像 x ~ \widetilde x x ,并基于退化后的图像 f ∘ x ~ f∘\widetilde x fx 和给定的低分辨率输入图像 I I I 来计算损失函数。

  在临床实践中,一种常见的获取 MRI 的方法是优先考虑高平面内分辨率,同时牺牲平面外分辨率,以加快成像过程并减少运动伪影。为了应对这一过程,本文引入了一个退化函数,该函数为未采集的切片生成掩模,从而使得本文的方法能够对缺失的切片进行填充。例如,在 1×1×4 mm³ 的欠采样体积中,本文在生成的高分辨率 1×1×1 mm³ 体积中,每四个切片中为三个切片创建掩模。

2.4、InverseSR(LDM)

  在高稀疏性 MRI SR 的情况下,优化噪声潜在编码 z T ∗ z_T^∗ zT 及其相关条件变量 C ∗ \mathcal C^* C,以使用以下优化方法从给定的 LR 输入图像 I I I 中恢复 HR 图像:
在这里插入图片描述
  其中 DDIM ( z T , C , T ) (z_T,C,T) (zT,C,T) 表示在 公式2 中对潜在编码 z 0 z_0 z0 进行的 T T T 个确定性 DDIM 采样步骤。遵循脑 LDM 模型,使用感知损失 L p e r c L_{perc} Lperc L 1 L1 L1 像素级损失。损失函数是在生成模型和给定LR输入生成的被破坏图像上计算的,该方法的详细伪代码描述见 算法1。

在这里插入图片描述

2.5、InverseSR(Decoder)

  对于低稀疏性 MRI SR,直接使用解码器 D \mathcal D D 找到最优的潜在编码 z T ∗ z_T^∗ zT
在这里插入图片描述


3、实验与结果

3.1、验证数据集

  (1)IXI 数据集:100 个 HR T1 MRI来验证本文的方法;

3.2、实施细节

  (1)条件变量均初始化为 0.5,所有输入体积中的体素均归一化为 [0,1];
  (2)DDIM 采样, T = 46 T = 46 T=46;(这个设置挺神奇
  (3)InverseSR(LDM), z T z_T zT 用随机高斯噪声初始化;
  (4)InverseSR(Decoder),从正态分布 N ( 0 , I ) \mathcal N(0,I) N(0,I) 中采样 S=10,000 个 z T i z_T^i zTi 样本,然后将它们通过 DDIM 模型,计算平均潜在编码 z ˉ 0 \bar z_0 zˉ0
  (5)在 InverseSR(LDM) 中使用了 600 步梯度下降,以确保收敛,InverseSR(Decoder) 中也使用了 600 步优化;
  (6)使用 Adam 优化器, α = 0.07 α = 0.07 α=0.07 β 1 = 0.9 β_1 = 0.9 β1=0.9 β 2 = 0.999 β_2 = 0.999 β2=0.999

3.3、实验结果

  
Figure 2 | InverseSR 和 Cubic 、 UniRes 基线在厚度为 4 mm 和 8 mm 的扫描上的定性结果:

在这里插入图片描述

  
Table 1 | InverseSR 以及两个基线方法在 1 毫米扫描图像及其对应的超分辨率(SR)图像(分别从 4毫米 和 8毫米 轴向扫描图像生成)上的定量评估结果(均值 ± 标准误差):

在这里插入图片描述


  Brain LDM 是之前的研究预训练好的,计算的损失是真实 LR 图像与 LDM 出来的 SR 经过退化后的 LR 图像,优化的是输入 LDM 的 z z z 以及条件 C C C

  不太理解的是,高稀疏性就是层厚更厚么(⊙o⊙)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2378762.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

list重点接口及模拟实现

list功能介绍 c中list是使用双向链表实现的一个容器,这个容器可以实现。插入,删除等的操作。与vector相比,vector适合尾插和尾删(vector的实现是使用了动态数组的方式。在进行头删和头插的时候后面的数据会进行挪动,时…

Java 框架配置自动化:告别冗长的 XML 与 YAML 文件

在 Java 开发领域,框架的使用极大地提升了开发效率和系统的稳定性。然而,传统框架配置中冗长的 XML 与 YAML 文件,却成为开发者的一大困扰。这些配置文件不仅书写繁琐,容易出现语法错误,而且在项目规模扩大时&#xff…

vue使用Pinia实现不同页面共享token

文章目录 一、概述二、使用步骤安装pinia在vue应用实例中使用pinia在src/stores/token.js中定义store在组件中使用store登录成功后,将token保存pinia中向后端API发起请求时,携带从pinia中获取的token 三、参考资料 一、概述 Pinia是Vue的专属状态管理库…

遨游科普:三防平板是什么?有什么功能?

清晨的露珠还挂在帐篷边缘,背包里的三防平板却已开机导航;工地的尘土飞扬中,工程师正通过它查看施工图纸;暴雨倾盆的救援现场,应急队员用它实时回传灾情数据……这些看似科幻的场景,正因三防平板的普及成为…

spring MVC 至 springboot的发展流程,配置文件变化

spring mvc Spring MVC 是 Spring 框架中的一个重要模块,用于构建基于 Java 的 Web 应用程序。它基于 ​​MVC(Model-View-Controller)设计模式​​,提供了灵活、可配置的方式来开发动态网页或 RESTful 服务 ssm ​​SSM 框架​…

AI全域智能监控系统重构商业清洁管理范式——从被动响应到主动预防的监控效能革命

一、四维立体监控网络技术架构 1. 人员行为监控 - 融合人脸识别、骨骼追踪与RFID工牌技术,身份识别准确率99.97% - 支持15米超距夜间红外监控(精度0.01lux) 2. 作业过程监控 - UWB厘米级定位技术(误差<0.3米&…

网络编程中的直接内存与零拷贝

本篇文章会介绍 JDK 与 Linux 网络编程中的直接内存与零拷贝的相关知识,最后还会介绍一下 Linux 系统与 JDK 对网络通信的实现。 1、直接内存 所有的网络通信和应用程序中(任何语言),每个 TCP Socket 的内核中都有一个发送缓冲区…

panda机械臂的正逆运动学分析与仿真

文章目录 前言Panda机械臂的DH参数法建模正运动学逆运动学误差函数雅可比矩阵高斯-牛顿法(Gauss-Newton) 参考代码获取 前言 机械臂的位置运动学分析是机器人控制与轨迹规划的核心基础,其研究内容主要分为正运动学(Forward Kinem…

QT使用QXlsx读取excel表格中的图片

前言 读取excel表格中的图片的需求比较小众,QXlsx可以操作excel文档,进行图片读取、插入操作,本文主要分享单独提取图片和遍历表格提取文字和图片。 源码下载 github 开发环境准备 把下载的代码中的QXlsx目录,整个拷贝到所创建…

VulnHub | Breach - 1

🌟 关注这个靶场的其它相关笔记:[网安靶场] 红队综合渗透靶场 —— VulnHub 靶场笔记合集 Breach: 1 ~ VulnHubBreach: 1, made by mrb3n. Download & walkthrough links are available.https://vulnhub.com/entry/breach-1,152/ 0x01:…

在Oracle到GreatSQL迁移中排序规则改变引发的乱码问题分析及解决

在Oracle到GreatSQL迁移中排序规则改变引发的乱码问题分析及解决 一、引言 某老系统数据库从 Oracle 迁移至 GreatSQL 过程中,首批迁移(存储过程、表结构、基础数据)顺利完成。然而,第二批数据迁移时出现主键冲突问题&#xff1…

开源物联网平台(OpenRemote)

在物联网技术蓬勃发展的当下,OpenRemote作为一款强大的开源物联网平台,正逐渐在多个领域崭露头角。尤其是在智能能源管理领域,它为微电网和分布式能源网络提供了全面且灵活的数据集成与管理方案,展现出独特的优势。 OpenRemote提供…

JavaScript入门【3】面向对象

1.对象: 1.概述: 在js中除了5中基本类型之外,剩下得都是对象Object类型(引用类型),他们的顶级父类是Object;2.形式: 在js中,对象类型的格式为key-value形式,key表示属性,value表示属性的值3.创建对象的方式: 方式1:通过new关键字创建(不常用) let person new Object();// 添…

软件安全检测报告:如何全面评估企业级办公软件安全性?

软件安全检测报告对软件的整体安全性进行了全面而细致的评估与呈现,既揭露了软件防范非法入侵的能力,同时也为软件的开发与优化提供了关键性的参考依据。 引言情况 撰写报告旨在明确呈现软件的安全性状态,并为后续的改进工作提供依据。在阐…

PySide6 GUI 学习笔记——常用类及控件使用方法(常用类颜色常量QColorConstants)

文章目录 一、概述二、颜色常量表标准 Qt 颜色SVG 颜色(部分) 三、Python 代码示例四、代码说明五、版本兼容性六、延伸阅读 一、概述 QColorConstants 是 Qt for Python 提供的一个预定义颜色常量集合,包含标准Qt颜色和SVG规范颜色。这些常…

大模型技术演进与应用场景深度解析

摘要 本文系统梳理了当前主流大模型的技术架构演进路径,通过对比分析GPT、BERT等典型模型的创新突破,揭示大模型在参数规模、训练范式、应用适配等方面的核心差异。结合医疗、金融、教育等八大行业的实践案例,深入探讨大模型落地的技术挑战与解决方案,为从业者提供体系化的…

鸿蒙5.0项目开发——鸿蒙天气项目的实现(主页1)

【高心星出品】 文章目录 页面效果:页面功能:页面执行流程:1. 页面初始化阶段2. 定位获取阶段3. 天气数据加载阶段 这个页面是整个天气应用的核心,集成了天气查询、定位、搜索等主要功能,提供了完整的天气信息服务。 …

【ESP32】ESP-IDF开发 | 低功耗蓝牙开发 | GATT规范和ATT属性协议 + 电池电量服务例程

1. 简介 低功耗蓝牙中最为核心的部分当属 GATT(Generic Attribute Profile),全称通用属性配置文件。而 GATT 又是建立在 ATT 协议(属性协议)的基础之上,为 ATT 协议传输和存储的数据建立了通用操作和框架。…

2025 年九江市第二十三届中职学校技能大赛 (网络安全)赛项竞赛样题

2025 年九江市第二十三届中职学校技能大赛 (网络安全)赛项竞赛样题 (二)A 模块基础设施设置/安全加固(200 分)A-1 任务一登录安全加固(Windows,Linux)A-2 任务二 Nginx 安全策略&…

【记录】Windows|竖屏怎么调整分辨率使横竖双屏互动鼠标丝滑

本文版本:Windows11,记录一下,我最后调整的比较舒适的分辨率是800*1280。 文章目录 第一步 回到桌面第二步 右键桌面第三步 设置横屏为主显示器第四步 调整分辨率使之符合你的需求第五步 勾选轻松在显示器之间移动光标第六步 拖动屏幕符合物理…