文章目录
- 摘要
 - 问题
 - 3. 算法:
 - 3.1 基于点的交互式操作
 - 3.2 运动监督
 - 3.3 点跟踪
 
- 4. 实验
 - 4.1 质量评估
 - 4.2 量化评估
 - 4.3 讨论
 
- 结论
 
论文: 《Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold》
github: https://github.com/XingangPan/DragGAN
摘要
用户想要灵活控制姿态、形状、表情以及生成目标布局。现有方法:GAN通过有标定训练集实现、或者先验3D模型,这缺少灵活度、精确度及泛化性。本文提出DragGAN,主要包括两部分:
 1、基于特征的运动监督,驱动点运动到目标位置;
 2、点跟踪方法利用生成器特征定位点。
 即使对一些有挑战场景,比如遮挡
问题
DragGAN主要解决两个问题:
- 移动点到目标位置;
 - 跟踪点的位置;
 
DragGAN基于观点:
 GAN的特征空间具有足够区分度,可用于运动监督以及精确点跟踪。
3. 算法:
3.1 基于点的交互式操作
图像控制流程如图2所示,对于依据隐向量 
     
      
       
       
         w 
        
       
      
        w 
       
      
    w及GAN生成图片 
     
      
       
       
         I 
        
       
      
        I 
       
      
    I,用户可输入一系列处理点 
     
      
       
        
        
          p 
         
        
          i 
         
        
       
      
        p_i 
       
      
    pi记忆对应目标点 
     
      
       
        
        
          t 
         
        
          i 
         
        
       
      
        t_i 
       
      
    ti,目标是移动图中目标,使得处理点的语义位置达到对应目标点。
 如图2,优化过程分为两步:运动监督及点跟踪。强制处理点移动到目标点的损失函数用于优化隐向量 
     
      
       
       
         w 
        
       
      
        w 
       
      
    w,得到新的隐向量 
     
      
       
       
         w 
        
       
         ‘ 
        
       
      
        w‘ 
       
      
    w‘及新图片 
     
      
       
       
         I 
        
       
         ’ 
        
       
      
        I’ 
       
      
    I’,每次优化仅运动一小步,具体步长是不清楚的,因此需要通过跟踪模块,更新处理点位置。这个过程持续30-200轮迭代。
 
3.2 运动监督

作者提出运动监督损失不依赖于额外的神经网络,由于生成器中间特征已经具有差异性,作者选取StyleGAN2第六个block的特征,作者将其resize到与输出图片尺寸一致。如图3,移动处理点 
     
      
       
       
         p 
        
       
      
        p 
       
      
    p至 
     
      
       
       
         t 
        
       
      
        t 
       
      
    t,损失函数如式1,
 

二值mask M用于保证保证feimask区域不变;隐向量 w w w可在 W W W空间优化也可在 W + W+ W+空间优化, W + W+ W+空间更易在离群数据上操纵, W + W+ W+表示StyleGAN2各个层使用不同隐向量 w w w, W W W表示各个层使用相同隐向量 w w w。实验发现图像空间属性受 w w w前六层影响,因此只更新 w w w的前六层。
3.3 点跟踪
通过运动监督模块更新 
     
      
       
       
         w 
        
       
      
        w 
       
      
    w为 
     
      
       
       
         w 
        
       
         ‘ 
        
       
      
        w‘ 
       
      
    w‘,得到新特征图 
     
      
       
       
         F 
        
       
         ’ 
        
       
      
        F’ 
       
      
    F’,新图片 
     
      
       
       
         I 
        
       
         ‘ 
        
       
      
        I‘ 
       
      
    I‘,但无法提供处理点在新图 
     
      
       
       
         I 
        
       
         ’ 
        
       
      
        I’ 
       
      
    I’中位置,点跟踪用于更新处理点 
     
      
       
       
         p 
        
       
      
        p 
       
      
    p。常规点跟踪方案为光流或粒子视频方法,但是不够高效或者产生累计误差,尤其是在GAN生成伪影时。
 作者认为GAN的特征捕获稠密点一致性信息,因此可通过最邻近搜寻寻找处理点,如式2,
 
 
4. 实验
4.1 质量评估
图4作者比较DragGAN与UserControllableLT,DragGAN结果更加自然,移动更加准确;
 
图6作者与PIPs、RAFT比较点跟踪方法,作者所提方法更加准确。
 
**真实图片操纵。**通过反向GAN编码真实图片至StyleGAN的隐空间,也可操纵真实图像,如图5、13
 
 
4.2 量化评估
人脸操纵。
 作者通过StyleGAN生成两人脸,利用现有工具预测人脸关键点,通过DragGAN将图1人脸关键点迁移至图2人脸关键点位置,计算迁移后图片人脸关键点与图2中人脸关键点距离,以此为评估指标。结果如表1,可视化结果如图7。
 
 
成对图像重构。
 作者利用StyleGAN生成图片 
     
      
       
        
        
          I 
         
        
          1 
         
        
       
      
        I_1 
       
      
    I1及 
     
      
       
        
        
          I 
         
        
          2 
         
        
       
      
        I_2 
       
      
    I2,在光流区域随机采样32个点作为用户输入 
     
      
       
       
         U 
        
       
      
        U 
       
      
    U,目标为利用 
     
      
       
        
        
          I 
         
        
          1 
         
        
       
      
        I_1 
       
      
    I1及 
     
      
       
       
         U 
        
       
      
        U 
       
      
    U重构 
     
      
       
        
        
          I 
         
        
          2 
         
        
       
      
        I_2 
       
      
    I2,量化结果如表2所示。
 
消融实验
 作者比较不同层特征对运动监督、点跟踪的影响,如图3所示,StyleGAN第6个block特征表现最佳。
 
4.3 讨论
图8展示可移动区域mask的影响。
 
 图9展示OOD数据的图像操纵。
 
限制:
 图14a展示一些限制,对于一些偏离训练集分布的姿态容易产生伪影。
 如图14b、c,对于一些缺少结构信息信息的处理点,跟踪时会出现偏移。
 
结论
作者提出DragGAN,一种交互式基于点的图像编辑方法,可以依据用户输入操纵图像。这归因于两点:
 a. 隐向量优化模块,将处理点移动至目标点;
 b. 点跟踪模块准确跟踪处理点轨迹。
 DragGAN超越现有基于GAN的图像操纵方法,同时开拓新方向,利用生成先验进行图像操纵。



















