[论文阅读] Generative Adversarial Networks for Video-to-Video Domain Adaptation

news2025/12/21 13:52:29

[论文地址] [代码] [AAAI 20]

Abstract

来自多中心的内窥镜视频通常有不同的成像条件，如颜色和光照，这使得在一个领域训练的模型通常不能很好地推广到另一个领域。领域适应是解决这一问题的潜在方案之一。然而，现有的工作很少关注基于视频的数据的转换。在这项工作中，我们提出了一个新的生成对抗网络(GAN)，即VideoGAN，以跨越不同领域转移基于视频的数据。由于视频中的帧可能具有相似的内容和成像条件，所提出的VideoGAN有一个X型生成器，以在翻译过程中保持视频内的一致性。此外，还提出了一个损失函数，即颜色直方图损失，以调整每个翻译帧的颜色分布。两个来自不同中心的结肠镜数据集，即CVC-Clinic和ETIS-Larib，被用来评估我们的VideoGAN的领域适应性的性能。实验结果表明，由我们的VideoGAN生成的适应性结肠镜视频可以显著提高多中心数据集上结直肠息肉的分割精度，即提高5%。由于我们的VideoGAN是一个通用的网络架构，我们还用CamVid驾驶视频数据集评估了它在阴天到晴天的翻译任务上的表现。综合实验表明，通过我们的VideoGAN可以大大缩小领域差距。

Intro

问题定义：不同医疗中心的内窥镜数据集之间存在domain gap，即由于成像模态，设备等因素的差异，在一个domain上训练的模型往往不能很好的泛化到另一个domain。一个例子如下：
在这里插入图片描述
容易发现，Clinic序列的颜色要比ETIS要暖一些，存在着比较明显的差异。解决这一问题的方案是执行翻译，而具体又有两种思路。假定Clinic有标注而ETIS无标注，一种方法是先用Clinic训练一个模型，然后将ETIS翻译成Clinic的样式再进行测试；另一种方法是把Clinic的样式翻译成ETIS，然后训练一个ETIS的模型。

现在的一个问题在于，为什么现有的图像翻译网络(即Image-to-Image Domain Adaptation)不能直接用于视频翻译呢？作者指出这是因为视频有着其本身的额外约束，例如相邻帧之间的颜色，亮度等肯定得是一致的，因此需要进行额外的显式建模。直接应用图像层面的翻译的话，相邻帧可能会被翻译至两个差异较大的模态，从而导致内容失真。

本文所提出的额外设计都是为了建模相邻视频帧之间的约束，本质上仍属于魔改的CycleGAN。

Method

本文的框架如下所示：
在这里插入图片描述
可以看到相比与CycleGAN而言改了以下几个部分：

生成器：从原来的ResNet生成器改为了本文的X-shape生成器
判别器：多了一个额外的Color Validator
损失函数：多了Color Histogram Loss与Intra-Video Loss

X-shape Generator

结构如下所示：
在这里插入图片描述
之所以是X-shape，其实也是非常直觉的。之前提到了要建模视频的相邻帧，一种方案就是把两个相邻的帧都同时给送到生成器里面去，这种情况下自然就要有两个encoder。从结构上看，这个X-shape Generator就是把两个Resnet Generator给并在了一起。

从另一种角度理解，这也可以视为给条件GAN再加了一个条件。从图中可以看到，输入图像分为了reference和source，其中source就是传统意义上的随机抽取的一张图像，而reference则为该图像所在视频序列的第一帧，这样就约束了同一序列内其他图像的风格应该与第一帧保持一致。

Color Validator

文中并没有给出Color Validator的设计细节，其功能主要是通过Color Histogram Loss与Intra-Video Loss这两个损失来实现的。不过有一点可以明确的是，Color Validator与X-shape Generator一样，都是接收成对的reference和source作为输入。

Color Histogram Loss source图像与reference图像在翻译前后，他们的R, G, B三通道的直方图的相对差异应该保持一致： $\begin{array}{r} h i s t_{r c d}=\operatorname{cat}\left(h i s t_R^{r e f}, h i s t_G^{r e f}, h i s t_B^{r e f}\right) \\ -\operatorname{cat}\left(h i s t_R^{s r c}, h i s t_G^{s r c}, h_{i s t}^{s i s c}\right) \end{array}$ $\begin{aligned} \mathcal{L}_{\text {hist }}\left(G_{B A}, C_A^{h i s t}\right)=& \| C_A^{h i s t}\left(G_{B A}\left(x_B^{s r c}\right), G_{B A}\left(x_B^{r e f}\right)\right) \\ &-h i s t_{r c d}\left(x_B^{\text {src }}, x_B^{r e f}\right) \|_1 \end{aligned}$

Intra-Video Loss 原文这部分讲述的并不是很清楚(损失函数表达式都没给，个人也没看明白)，感兴趣的读者可以阅读原文。

Experiment

Dataset 采用了两个视频息肉数据集，分别为CVC-ClinicDB(29个序列，612张图像)以及ETIS-Larib(29个序列，196张图像)。
Hyperparameters 和CycleGAN一致，200epoch，学习率2e-4，batch size 1。
Setting 两种实验流水线。A) transfer learning。在该设置下，CVC-ClinicDB数据集有标签，而ETIS-Larib数据集没标签。把Clinic数据翻译成ETIS的样式，据此训练一个分割模型，然后在ETIS上测试。注意这里没有选择将ETIS视为源域(源域在这里指有标签的域)是因为ETIS本身太小了不适合单独训练一个分割网络。B) data augmentation。这里翻译的顺序颠倒了过来，将ETIS翻译成Clinic的样式。然后，利用Clinic以及翻译后的ETIS训练一个新的模型，并在一个额外的Clinic数据集上测试。
Evaluation Criterion 只用了Dice，说实话比较少。不过本文的重心并不是比较分割性能(因为不同方法间的性能差异过大)，所以也勉强够用。
Translation Results abcdef分别为输入、UNIT, DRIT, CycleGAN, CycleGAN改，本文(VideoGAN)。
在这里插入图片描述
这里对比的最直观差距其实就是，对比方法在某些帧都崩掉了(如图中第6，12列)，没有完成最基本的翻译任务，已经超出了"逼真不逼真"的高级范畴。

除此之外，本文还做了个神奇的实验。一般来说，将翻译任务用于Domain Adaptation的一个假定在于翻译前后图像的标签不会发生变化。为此，作者"重新标注"了ETIS的原始图像，由CycleGAN翻译的图像以及由VideoGAN翻译的图像，并计算这三者与ETIS原始标注的dice。由下表可以发现，ETIS直接重新标注的dice与VideoGAN翻译后的dice是差不多，证明翻译后没有改变图像的内容(如息肉的位置)：
在这里插入图片描述

Transfer Learning Results 即上面提到的流水线A，结果如下。这里使用的分割网络为很老的的ResUNet：
在这里插入图片描述
可以发现其他方法由于对图像原有语义造成了破坏，甚至还掉了比较多的点；而应用本文方法后则大约涨点了5%。
不过需要注意的是，这个结果其实与本文一开始的claim——两个数据集之间存在较大的domain gap，是矛盾的。因为直接在ETIS上训练然后在Clinic上测试性能并不差(有71%)。