【深度学习】16. Deep Generative Models：生成对抗网络（GAN）

Deep Generative Models：生成对抗网络（GAN）

什么是生成建模（Generative Modeling）

生成模型的主要目标是从数据中学习其分布，从而具备“生成”数据的能力。两个关键任务：

密度估计（Density Estimation）：学习真实数据的概率分布 $p (x)$ 。
样本生成（Sample Generation）：从模型学习的分布中采样，生成新样本。

换句话说，生成建模不是仅预测标签，而是要建模整个数据的生成过程，使模型能“想象”并产生新的样本。

图示说明了输入图像 $x$ 是由真实分布 $p (x)$ 生成的。我们希望构建一个模型，也能从噪声或潜变量中生成具有相同分布的新样本。

为什么研究生成建模？

逼真的生成任务

模拟可能的未来规划（如股票市场）

训练生成模型还可以对潜在表征进行推理，这些潜在表征可以作为通用特征

从多个角度说明生成模型的重要性：

潜变量结构学习：生成模型能够发现数据中的隐藏因素，如风格、姿态、语义等。
半监督学习能力强：即使标签很少，也可以利用未标注数据学到有意义的表示。
数据建模能力强：可用于数据修复、风格迁移、图像翻译、图像上色等任务。
表示学习（Representation Learning）：通过对输入数据建模，生成模型学到的特征常常可迁移用于其他任务。
未来模拟与预测：如视频预测、图像到视频生成等。

什么是生成对抗网络（GAN）

生成对抗网络是一种重要的深度生成模型，由两个神经网络组成：

生成器 $G$ ：从随机变量（noise） $\sim p(z)$ 生成图像 $G (z)$ 。
判别器 $D$ ：判断图像 $x$ 是否来自真实数据分布 $p_{data}(x)$ 。

二者的训练过程是一个博弈（对抗）过程。

GAN 的目标函数

GAN 的优化目标是一个极小极大问题：

$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p(z)}[\log(1 - D(G(z)))]$

含义如下：

第一项鼓励判别器 $D$ 对真实图像 $x$ 输出概率越接近 $1$ 越好；
第二项鼓励判别器对生成图像 $G (z)$ 输出概率越接近 $0$ 越好；
D的目标：最大化目标，使D(x)接近于1（真实），D（G(z)）接近于0（假）
G的目标：最小化目标，使D（G(z)）接近于1（鉴别器被骗以为生成的G(z)是真实的）

因此，判别器和生成器是两个对手：

判别器 $D$ 试图区分真假；
生成器 $G$ 则试图以假乱真。

当博弈达到平衡时，判别器无法分辨真假图像，即 $D (G (z)) = 0.5$ 。

GAN 的训练直观理解

在这里插入图片描述

输入是noise，给到G，generated image + real image data as input,两个输入。D用来做binary classification.

可以将 GAN 的训练比喻为“造假者 vs 警察”的博弈：

初始时，生成器 $G$ 生成的图像非常粗糙，容易被判别器 $D$ 识别；
随着训练进行， $G$ 不断改进生成策略， $D$ 也在不断提升识别能力；
最终双方达到均衡， $G$ 的输出与真实数据无法区分， $D$ 的输出变成 $0.5$ 。

GAN 的总目标函数

生成器和判别器之间的博弈关系形式化为一个极小极大的对抗优化问题：

$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p(z)}[\log(1 - D(G(z)))]$

这个公式表示：

判别器试图最大化该表达式，正确区分真实图像和伪造图像；
生成器试图最小化该表达式，让伪造图像也被判断为真实；
最终博弈平衡点是 $p_g(x) = p_{data}(x)$ 且 $D (x) = 0.5$ 。

交替训练策略（Alternate Optimization）

为了求解上述极小极大问题，采用以下 交替更新策略：

1. Gradient Ascent on D

固定生成器参数 $\theta_g$ ，更新判别器参数 $\theta_d$ ，最大化以下目标：

$\max_{\theta_d} \left[ \mathbb{E}_{x \sim p_{data}} \log D_{\theta_d}(x) + \mathbb{E}_{z \sim p(z)} \log(1 - D_{\theta_d}(G_{\theta_g}(z))) \right]$

也就是说：

判别器希望对真实样本 $x$ 输出接近 $1$ ；
对伪造样本 $G (z)$ 输出接近 $0$ ；
因为目标是最大化，所以需要对判别器使用 梯度上升。

2. Gradient Descent on G

固定判别器参数 $\theta_d$ ，优化生成器参数 $\theta_g$ ，最小化如下损失函数：

$ \min_{\theta_g} \mathbb{E}{z \sim p(z)} \log(1 - D{\theta_d}(G_{\theta_g}(z))) $

这个目标使得生成器试图提升 $D (G (z))$ ，让判别器认为伪造图像也是真实的，即：

尽可能让 $\rightarrow 1$ ；
所以生成器使用 梯度下降 来最小化该损失。

但注意，这一损失可能在训练初期导致梯度消失，因此实际训练中常采用非饱和形式（non-saturating loss）：

$\min_{\theta_g} - \mathbb{E}_{z \sim p(z)} \log D_{\theta_d}(G_{\theta_g}(z))$

算法流程

外层：训练轮数

for number of training iterations do

对所有训练轮数重复执行以下步骤（每轮包括 $k$ 次判别器更新 + 1 次生成器更新）。

内层：判别器更新（k 次）

for k steps do

每轮训练中先更新 $k$ 次判别器， $k$ 是一个超参数（原论文中使用 $k = 1$ ，以节省计算资源）。

每次判别器更新包含以下步骤：

采样 $m$ 个噪声样本：
$ {z^{(1)}, \dots, z^{(m)}} \sim p_g(z) $
采样 $m$ 个真实样本：
$ {x^{(1)}, \dots, x^{(m)}} \sim p_{data}(x) $
更新判别器参数（梯度上升）：

$\nabla_{\theta_d} \frac{1}{m} \sum_{i=1}^{m} \left[ \log D(x^{(i)}) + \log(1 - D(G(z^{(i)}))) \right]$

此步骤最大化判别器输出正确分类的概率：真实图像输出高，伪造图像输出低。

end for

生成器更新（1 次）

采样 $m$ 个噪声样本：
$ {z^{(1)}, \dots, z^{(m)}} \sim p_g(z) $
更新生成器参数（梯度下降）：

$\nabla_{\theta_g} \frac{1}{m} \sum_{i=1}^{m} \log \left(1 - D(G(z^{(i)})) \right)$