前天看了一篇文章图像分割用diffusion,今天看了篇文章图像合成不用diffusion,你说说这~
传送门:【技术追踪】SDSeg:医学图像的 Stable Diffusion 分割(MICCAI-2024)
UNest:UNet结构的Transformer,一种用于非配对医学图像合成的新框架,涵盖三种模态(MR、CT和PET),在六项医学图像合成任务中将最近的方法改进了19.30%。
论文:Structural Attention: Rethinking Transformer for Unpaired Medical Image Synthesis
 代码:https://github.com/HieuPhan33/MICCAI2024-UNest (即将开源)
0、摘要
  非配对医学图像合成的目的是为准确的临床诊断提供补充信息,并解决获得对齐的多模态医学扫描的挑战。
   由于Transformer能够捕获长期依赖关系,他们在图像转换任务中表现非常出色,但只是在监督训练中有效,在非配对图像转换中性能下降,特别是在合成结构细节方面。
   本文的经验证明,在缺乏成对数据和强归纳偏差的情况下,Transformer会收敛到非最优解。为了解决这个问题,本文引入了UNet结构Transformer(UNet Structured Transformer,UNest)—— 一种新的架构,它包含了结构归纳偏差,用于非配对的医学图像合成。
   本文利用SAM模型来精确地提取前景结构,并在主要解剖结构中实施结构注意。这会指导模型学习关键的解剖区域,从而在缺乏监督的非配对训练中改进结构合成。
   在两个公共数据集上进行评估,涵盖三种模态(MR、CT和PET),在六项医学图像合成任务中将最近的方法改进了19.30%。
1、引言
1.1、图像合成的意义
医学影像具有多个模态,不同模态可提供互补的信息,但多次扫描可能是耗时、昂贵的,且有辐射暴露的风险,医学图像合成是一种新思路。(格局打开~)
1.2、现有合成方法局限
  (1)大多数合成方法基于有监督的Pix2Pix方法,需要成对数据,不好获取;
   (2)CycleGAN是非配对图像转换的开创性工作;
   (3)以往的方法采用带有局部归纳偏置的卷积算子,指导模型提取局部特征。这限制了它们捕捉远程空间上下文的能力;
1.3、ViT方法的不足
  (1)ViT可建模全局依赖,在分割、超分任务上表现优异;然而,ViT模型在应用于未配对的医学图像合成时很困难;
   (2)由于没有归纳偏置,ViT的样本效率较低,在低数据条件下无法注意到鉴别特征;
(a)目前的ViT方法无法在鼻腔内合成复杂的解剖结构;
 (b)Transformer方法倾向于关注不太相关的背景特征;
 
1.4、本文贡献
  (1)本文发现,加入结构引导偏差使Transformer能够专注于鉴别区域,从而增强了非配对图像合成中解剖结构的合成;
   (2)提出UNest框架,应用了双重注意策略:前景的结构注意和背景的局部注意;
   (3)对MR、CT和PET三种模态的六种图像转换任务进行评估,UNest显著提高了各种解剖结构的准确性;
2、方法
UNest整体框架图:
 
2.1、CycleGAN概述
基于CycleGAN,UNest有两个生成器: G X Y {G_{XY}} GXY 和 G Y X {G_{YX}} GYX,学习 X {X} X 和 Y {Y} Y 两个域之间的前向和向后映射。
   
     
      
       
        
        
          G 
         
         
         
           X 
          
         
           Y 
          
         
        
       
      
        {G_{XY}} 
       
      
    GXY 和  
     
      
       
        
        
          G 
         
         
         
           Y 
          
         
           X 
          
         
        
       
      
        {G_{YX}} 
       
      
    GYX 被训练来欺骗鉴别器  
     
      
       
        
        
          D 
         
        
          Y 
         
        
       
      
        {D_{Y}} 
       
      
    DY 和  
     
      
       
        
        
          D 
         
        
          X 
         
        
       
      
        {D_{X}} 
       
      
    DX,训练损失为对抗损失:
 
   针对未配对的训练,CycleGAN施加了循环一致性损失:

整体上还是CycleGAN模式:

2.2、非配对图像合成中的Transformer模型分析
  常规的 self-attention 是在整个图中做的:
 
   本文考虑CNN的局部归纳偏差,从查询(Q) tokens 周围的  
     
      
       
       
         m 
        
       
         × 
        
       
         m 
        
       
      
        {m×m} 
       
      
    m×m 窗口中聚合 tokens:

ResViT和UNETR采用的全局注意使髋关节结构变形,而Swin UNETR采用的局部注意产生伪影:
 
2.3、UNet Structural Transformer
  与之前的全局注意或局部注意不同,本文的结构注意聚集在主要解剖结构中,在划分patch之后,采用轻量级分类器实现对patch的分类标注。
   怎么训练patch分类器呢,使用SAM提取原图的分割结果,取前景最大部分为mask,计算与真实标签的BCE损失,优化patch分类器:
 
   最终损失为三个损失的加权:
 
UNest由Structural Transformer(ST)块和一个具有跳跃连接的卷积解码器组成:
 
2.4、Structural Transformer模块细节
为了在非配对训练下引导 Transformer,本文采用双重注意策略。对于前景,利用结构注意来学习解剖区域内的关系。对于背景,进行局部关注,实现前景和背景特征之间的有效信息交换。(具体实施还是后面看代码比较直观~)
分别对前景 tokens 和背景 tokens 实施双重注意策略:
 
3、实验与结果
3.1、数据集与实施细节
  (1)MRXFDG数据集:MR-to-CT、MR-to-PET,37例,224×224;
   (2)AutoPET数据集:PET-to-CT,310例,256×256;
   (3)两数据集划分:8:1:1;
   (4)显卡: 2块 NVIDIA RTX 3090 GPUs ;
   (5)优化器:Adam;
   (6)epoch:100;
   (7)学习率:0.0001,在最后50个epoch线性衰减到0;
3.2、评价指标
  (1)平均绝对误差(MAE)
   (2)峰值信噪比(PSNR)
   (3)结构相似性(SSIM)
   (4)报告结果运行5次,与其他方法比较采用  
     
      
       
       
         t 
        
       
      
        {t} 
       
      
    t 检验,显著性差异  
     
      
       
       
         p 
        
       
         < 
        
       
         0.05 
        
       
      
        {p<0.05} 
       
      
    p<0.05
3.3、与先进技术比较
四个转换任务,三种网络类型(卷积类,Transformer类,混合类):

可视化结果:在没有引导偏差的情况下,UNETR倾向于产生更模糊的细节,而Swin-UNETR则扭曲了大脑皮层下结构的细节;

AutoPET数据集结果:

3.4、消融实验
表2可以看出,双重注意和结构注意FG-S + BG-S在PET-CT上对UNETR和Swin UNETR的MAE分别提高了12.18%和10.98%。(百分数表示实在是妙啊~)
整体注意关注较少相关的BG tokens,而结构注意则自适应地关注解剖特征:
 
在图像合成领域diffusion盛行的时候,还有transformer的一席之地~













![[图解]企业应用架构模式2024新译本讲解18-活动记录2](https://img-blog.csdnimg.cn/direct/7ba1eb77768d4f85ad7b2c48f0a5b437.png)




