DCGAN原理解析：用卷积结构根治GAN模式坍缩

news2026/5/24 5:11:39

1. 项目概述从手写数字到逼真猫脸DCGAN如何让生成模型真正“看见”图像结构你有没有试过训练一个最基础的GAN结果生成器输出的全是模糊的、像打了马赛克的灰扑扑色块或者更糟——所有生成的图片都长得一模一样只是细微的亮度差异这不是你的代码写错了也不是数据没加载对而是你正踩在生成式模型里最经典也最顽固的坑上模式坍缩Mode Collapse。这个词听起来很学术但它的表现非常直白模型“偷懒”了它发现只要反复输出某一种最容易骗过判别器的假图就能稳稳拿到高分于是彻底放弃了学习数据集里其他丰富多样的真实模式。我第一次在MNIST上跑原始GAN时连续三天看到的都是同一张扭曲的“3”连我自己都开始怀疑是不是数据集被污染了。后来才明白这根本不是bug而是原始GAN架构在数学和工程层面的天然缺陷。而这篇要讲的DCGANDeep Convolutional GAN就是工业界和学术界联手开出的一剂强心针。它不靠玄学调参而是用卷积网络的物理直觉重构了整个生成流程——把生成器变成一个“可逆的图像编码器”把判别器变成一个“像素级的细节侦探”。它首次系统性地证明生成质量不是靠堆算力堆出来的而是靠网络结构本身对图像先验知识的显式建模。如果你正在用PyTorch或TensorFlow搭建自己的第一个图像生成项目或者正被生成结果发虚、失真、千篇一律的问题卡住那么DCGAN不是历史课本里的老古董而是你今天下午就能抄作业、明天就能看到效果的实操手册。它解决的不是某个特定数据集的问题而是所有基于像素空间建模的生成任务的根本瓶颈。2. 核心设计思路为什么卷积是生成图像的“解药”而不是“装饰”2.1 原始GAN的结构性失明全连接层为何天生不适合图像要理解DCGAN的价值必须先看清原始GAN的“盲点”。原始GAN的生成器G(z)是一个典型的多层全连接网络MLP输入一个100维的随机噪声向量z经过几层线性变换加激活函数最终输出784个数字对应28×28像素的MNIST图像。问题就出在这里——全连接层完全无视了像素之间的空间关系。它把一张图当成一个毫无结构的数字列表来处理第1个数是左上角像素第2个数是左上角右边那个第784个数是右下角……但它不知道“左上角”和“正下方那个像素”在物理位置上是紧挨着的也不知道“整张图的中心区域”应该具有某种对称性或连贯性。这就像教一个画家画猫你只给他一串784个数字却不告诉他这些数字在画布上怎么排布、哪些数字代表眼睛、哪些代表胡须。他只能靠死记硬背去猜结果就是画出来的东西要么糊成一团要么只学会画某一种姿势的猫。判别器D(x)同样如此它接收一张图把它拉平成784维向量再用MLP判断真假。它无法理解“边缘锐利度”、“纹理一致性”、“局部对比度”这些图像的本质特征只能在数字层面找统计偏差。这就导致了一个恶性循环生成器发现只要输出一堆在全局统计上接近真实图的噪声就能骗过这个“近视”的判别器而判别器为了不被轻易骗过又被迫去学习更刁钻的统计陷阱进一步加剧了生成器的投机行为。模式坍缩本质上就是这个循环失控后的必然结局。2.2 DCGAN的四大结构铁律用卷积给网络装上“视觉皮层”DCGAN没有试图在旧框架上打补丁而是直接重写了游戏规则。它提出了四条被后续所有主流生成模型奉为圭臬的结构约束每一条都直指原始GAN的要害全面弃用全连接层Except for the output layer of G and input layer of D这是最根本的变革。生成器G的主体部分全部由转置卷积ConvTranspose2d构成判别器D的主体部分全部由标准卷积Conv2d构成。这意味着网络的每一层都在明确地操作“特征图”feature map——一个具有高度结构化的二维网格。当G的最后一层输出一个64×64×3的张量时它天然地知道(0,0)位置是左上角的R通道值(63,63)是右下角的B通道值而(32,32)附近大概率是图像的中心区域。这种空间先验知识是任何全连接层都无法赋予的。批归一化BatchNorm的精准部署原始GAN中BN层通常被加在所有层之后结果是生成器早期层的输出方差极不稳定导致梯度爆炸或消失。DCGAN规定BN层只加在生成器G的除输入层外的所有层之后以及判别器D的除输出层外的所有层之后。这个看似微小的调整其物理意义极其深刻。对于G来说BN层相当于在每一个中间特征图上做“局部标准化”强制它学习到的特征具有稳定的尺度和分布避免了早期层输出过大或过小的数值从而让后续的转置卷积能稳定地“上采样”出有意义的结构。对于D来说BN层则帮助它在不同尺度的特征图上都能稳定地提取判别信号不会因为某一层特征过于稀疏或密集而失效。激活函数的“有偏”选择LeakyReLU与ReLU的攻守之道DCGAN规定判别器D的所有隐藏层使用LeakyReLUα0.2而生成器G的所有隐藏层使用ReLU。这个选择背后是精妙的博弈论思想。LeakyReLU在负值区有一个很小的斜率0.2意味着当D接收到一个非常弱的、接近零的特征响应时它依然能产生一个微小的梯度回传避免了“神经元死亡”让D能持续学习到那些细微的、容易被忽略的伪造痕迹。而G使用标准ReLU则是一种“进攻性”的策略它鼓励G大胆地输出强烈的、非零的特征响应因为只有足够“张扬”的特征才能在D的严苛审查下存活下来。如果G也用LeakyReLU它可能会变得过于保守只输出一些平滑、安全但毫无特色的中间态。输出层的终极妥协Tanh与Sigmoid的生死抉择DCGAN强制要求生成器G的最终输出层必须使用Tanh激活函数并将输入图像预处理到[-1, 1]区间。这是一个常被初学者忽略却至关重要的细节。Tanh的输出范围是[-1, 1]而Sigmoid是[0, 1]。为什么选前者因为图像的像素值在[-1, 1]区间内其分布更接近一个以0为中心的、对称的高斯分布。这使得G的最后一层可以自由地学习“增加亮度”输出正数或“降低亮度”输出负数而Sigmoid则天然地将所有输出都推向“变亮”这一方向严重限制了G的表达能力。我曾做过一个对照实验把G的输出层换成Sigmoid结果生成的图像整体发灰、对比度极低细节全无。仅仅换回Tanh图像立刻变得通透、锐利。这并非玄学而是数学上的必然——一个对称的激活函数匹配一个对称的数据分布才能实现最优的信息传递。2.3 模式坍缩的“外科手术”DCGAN如何从根源上瓦解它现在我们可以清晰地看到DCGAN是如何系统性地瓦解模式坍缩的。模式坍缩的核心诱因是生成器发现输出一个“平均脸”average face或“平均猫”average cat是最省力、最安全的策略。因为这个“平均”样本在统计上最接近整个数据集的中心最容易骗过一个只看全局统计的判别器。DCGAN的四条铁律恰好构成了一个完美的反制体系卷积结构迫使G必须学习如何在空间上组织像素。它不能再输出一个模糊的“平均”色块因为它必须同时满足左上角、右下角、中心区域等所有局部的结构约束。一个“平均”的猫脸可能眼睛位置是对的但胡须的走向、毛发的纹理、耳朵的轮廓不可能在所有局部都同时“平均”。批归一化确保了G在学习过程中每一层的特征表达都是稳定且可复现的。它不会因为某次训练的随机性就突然放弃学习“条纹猫”的特征转而去专精于“纯色猫”。BN层像一个温和的教练时刻提醒G“保持你的特征多样性不要偏科。”LeakyReLU与ReLU的组合则是在训练动态上设下了一道防火墙。D的LeakyReLU让它能敏锐地捕捉到G在生成“条纹猫”时某一根胡须的走向不够自然而G的ReLU则给了它足够的勇气去修正那根胡须而不是干脆放弃“条纹猫”转而全力优化它已经很拿手的“纯色猫”。因此DCGAN带来的不是生成质量的“小幅提升”而是一次范式转移它把生成任务从一个在抽象数字空间里的“统计拟合”问题重新定义为一个在具象像素空间里的“结构重建”问题。这才是它被称为“Generative Adversarial Networks 102”的真正原因——它教会了我们如何让一个神经网络真正地“看见”图像。3. 实操细节解析从零搭建一个可运行的DCGAN以PyTorch为例3.1 数据准备远不止是“读取图片”那么简单很多教程会轻描淡写地说一句“加载你的数据集”但数据准备恰恰是DCGAN能否成功的第一道也是最关键的门槛。我见过太多人卡在这一步最后归咎于模型不行。这里分享几个血泪教训尺寸统一是铁律裁剪优于缩放DCGAN论文中使用的图像尺寸是64×64。如果你的数据集是各种尺寸的比如人脸数据集绝对不要用torchvision.transforms.Resize()直接缩放到64×64。这会导致严重的形变——瘦长的脸被压扁圆脸被拉长。正确的做法是先用CenterCrop或RandomCrop裁剪出一个正方形区域例如先Resize(128)再RandomCrop(64)确保主体内容如人脸完整保留在画面中央。我处理CelebA数据集时就是先用Resize(178)原图宽再CenterCrop(178)保证人脸居中最后Resize(64)。这样生成的人脸五官比例才自然。归一化必须严格匹配激活函数如前所述G的输出是Tanh范围[-1, 1]。因此你的数据预处理流水线transforms.Compose中必须包含transforms.Normalize(mean[0.5, 0.5, 0.5], std[0.5, 0.5, 0.5])。这个操作的数学含义是(pixel_value / 255.0) * 2 - 1完美地将[0, 255]的像素值映射到[-1, 1]。漏掉这一步G的输出层会永远在“错误”的坐标系里挣扎损失函数的梯度方向也会完全错乱。我曾经调试了两天才发现是忘了加这个归一化生成的图全是惨白一片。数据增强要“克制”对于生成任务过度的数据增强如大幅度的旋转、色彩抖动反而有害。因为G的目标是学习数据集的真实分布而不是一个被增强器扭曲过的幻觉。我建议只保留最基础的RandomHorizontalFlip(p0.5)对称物体如人脸、猫脸有效并关闭所有颜色相关的增强。让G直面数据最本真的样子它才能学到最本质的模式。3.2 网络架构逐行代码解读其物理意义下面是一个精简但功能完整的DCGAN生成器GeneratorPyTorch实现我会逐行解释其背后的工程哲学import torch import torch.nn as nn class Generator(nn.Module): def __init__(self, nz100, ngf64, nc3): super(Generator, self).__init__() # nz: 噪声向量z的维度 (100) # ngf: 生成器特征图的基数控制网络宽度 (64) # nc: 输出通道数即RGB3 self.main nn.Sequential( # 输入: (nz) - 输出: (ngf*8) x 4 x 4 # 第一层将100维噪声通过全连接变成一个4x4的“种子特征图” # 这是整个生成过程的起点必须用BN和ReLU nn.ConvTranspose2d(nz, ngf * 8, 4, 1, 0, biasFalse), nn.BatchNorm2d(ngf * 8), nn.ReLU(True), # 输入: (ngf*8) x 4 x 4 - 输出: (ngf*4) x 8 x 8 # 第二层4x4上采样到8x8通道数减半。BNReLU nn.ConvTranspose2d(ngf * 8, ngf * 4, 4, 2, 1, biasFalse), nn.BatchNorm2d(ngf * 4), nn.ReLU(True), # 输入: (ngf*4) x 8 x 8 - 输出: (ngf*2) x 16 x 16 nn.ConvTranspose2d(ngf * 4, ngf * 2, 4, 2, 1, biasFalse), nn.BatchNorm2d(ngf * 2), nn.ReLU(True), # 输入: (ngf*2) x 16 x 16 - 输出: (ngf) x 32 x 32 nn.ConvTranspose2d(ngf * 2, ngf, 4, 2, 1, biasFalse), nn.BatchNorm2d(ngf), nn.ReLU(True), # 输入: (ngf) x 32 x 32 - 输出: (nc) x 64 x 64 # 最后一层上采样到目标尺寸64x64并将通道数映射到3 (RGB) # 关键这里没有BN也没有ReLU只有Tanh nn.ConvTranspose2d(ngf, nc, 4, 2, 1, biasFalse), nn.Tanh() ) def forward(self, input): return self.main(input)这段代码的精妙之处在于其严格的层级递进逻辑第一层4x4这是“胚胎期”。100维的噪声z被强行“编织”成一个4×4的、拥有512个通道ngf8648的微型特征图。你可以把它想象成一个极度浓缩的、包含了所有未来图像可能性的“基因蓝图”。它的尺寸小但信息密度极高。第二到第四层8x8 → 16x16 → 32x32这是“器官发育期”。每一次ConvTranspose2d操作都像细胞在分裂尺寸翻倍4→8→16→32同时通道数减半512→256→128→64。这个过程就是在蓝图的指导下逐步“展开”和“细化”图像的结构。BN层在这里的作用就是确保每一次“分裂”都健康、稳定不会出现畸形即特征崩溃。第五层64x64这是“分娩期”。最后一层将32×32的特征图最终“分娩”为64×64的RGB图像。它没有BN因为此时的输出已经是最终的像素值不需要再被标准化它用Tanh是为了将数值精确地约束在[-1, 1]这个为图像量身定制的区间内。判别器Discriminator的代码则是这个过程的“镜像”class Discriminator(nn.Module): def __init__(self, nc3, ndf64): super(Discriminator, self).__init__() # nc: 输入通道数 (3) # ndf: 判别器特征图的基数 (64)通常与ngf相同 self.main nn.Sequential( # 输入: (nc) x 64 x 64 - 输出: (ndf) x 32 x 32 # 第一层标准卷积下采样。用LeakyReLU不加BN输入是原始图像BN会破坏其统计特性 nn.Conv2d(nc, ndf, 4, 2, 1, biasFalse), nn.LeakyReLU(0.2, inplaceTrue), # 输入: (ndf) x 32 x 32 - 输出: (ndf*2) x 16 x 16 # 后续层都加BN因为输入已经是网络自己提取的特征了 nn.Conv2d(ndf, ndf * 2, 4, 2, 1, biasFalse), nn.BatchNorm2d(ndf * 2), nn.LeakyReLU(0.2, inplaceTrue), nn.Conv2d(ndf * 2, ndf * 4, 4, 2, 1, biasFalse), nn.BatchNorm2d(ndf * 4), nn.LeakyReLU(0.2, inplaceTrue), nn.Conv2d(ndf * 4, ndf * 8, 4, 2, 1, biasFalse), nn.BatchNorm2d(ndf * 8), nn.LeakyReLU(0.2, inplaceTrue), # 最后一层将所有空间信息16x16和通道信息512压缩成一个标量 # 输出一个概率0假到1真 nn.Conv2d(ndf * 8, 1, 4, 1, 0, biasFalse), nn.Sigmoid() ) def forward(self, input): return self.main(input).view(-1, 1).squeeze(1)注意判别器的第一层没有BN这是DCGAN论文中明确指出的。因为输入是原始图像其像素值的分布均值约0.5方差很大与网络内部特征图的分布均值接近0方差被BN稳定完全不同。在第一层加BN反而会扰乱D对原始图像最基础统计特性的感知能力。3.3 训练循环损失函数、优化器与超参数的实战平衡术DCGAN的训练循环表面看是标准的GAN对抗但其中的每一个参数都藏着经验之谈# 定义损失函数 criterion nn.BCELoss() # 二元交叉熵计算真假概率 # 优化器两个网络必须使用独立的优化器 optimizerG torch.optim.Adam(netG.parameters(), lr0.0002, betas(0.5, 0.999)) optimizerD torch.optim.Adam(netD.parameters(), lr0.0002, betas(0.5, 0.999)) # 训练主循环 for epoch in range(num_epochs): for i, data in enumerate(dataloader, 0): ############################ # (1) 更新判别器D最大化 log(D(x)) log(1 - D(G(z))) ############################ ## 步骤1用真实图像训练D netD.zero_grad() real_cpu data[0].to(device) b_size real_cpu.size(0) label torch.full((b_size,), real_label, dtypetorch.float, devicedevice) output netD(real_cpu).view(-1) errD_real criterion(output, label) errD_real.backward() D_x output.mean().item() # 记录D对真实图的平均输出越接近1越好 ## 步骤2用假图像训练D noise torch.randn(b_size, nz, 1, 1, devicedevice) fake netG(noise) label.fill_(fake_label) # 将label全设为0假 output netD(fake.detach()).view(-1) # 关键detach()切断G的梯度流 errD_fake criterion(output, label) errD_fake.backward() D_G_z1 output.mean().item() # 记录D对假图的平均输出越接近0越好 # D的总损失 errD errD_real errD_fake optimizerD.step() ############################ # (2) 更新生成器G最大化 log(D(G(z))) ############################ netG.zero_grad() label.fill_(real_label) # 将label全设为1真欺骗D # 注意这里没有detach()我们要让G的梯度流经D output netD(fake).view(-1) errG criterion(output, label) errG.backward() D_G_z2 output.mean().item() # 记录G生成的假图被D判为真的平均概率越接近1越好 optimizerG.step()这个循环里有三个关键点决定了成败fake.detach()的时机这是GAN训练中最容易出错的地方。在更新D时fake必须detach()否则D的梯度会反向传播到G导致D在“教”G怎么骗自己这违背了对抗的初衷。而在更新G时fake必须是“活”的这样才能让G的梯度通过D的网络知道D认为哪里还不够真。Adam优化器的betas参数(0.5, 0.999)这个组合是DCGAN论文的指定配置。beta10.5大幅降低了Adam对一阶矩梯度均值的估计权重使得优化器对梯度的方向更加“迟钝”从而避免了G和D在训练初期因梯度剧烈震荡而相互摧毁。我试过用默认的(0.9, 0.999)结果前10个epoch的损失曲线像心电图一样乱跳根本无法收敛。D_x,D_G_z1,D_G_z2的监控价值这三个指标是你诊断训练状态的“生命体征”。一个健康的训练过程应该是D_x从0.5左右随机猜测稳步上升到0.9D能很好识别真图D_G_z1从0.5左右稳步下降到0.1-0.3D能很好识别假图D_G_z2从很低的值如0.1缓慢但坚定地上升到0.5G在持续进步生成的图越来越难被D识破。如果D_G_z2一直不上升说明G学废了如果D_x和D_G_z1都很快趋近于1和0但D_G_z2停滞说明D已经过强G完全跟不上这时需要降低D的学习率或增加G的训练步数即每个batch里多更新几次G。4. 模式坍缩的实战诊断与根治方案从“症状”到“处方”4.1 模式坍缩的“临床表现”如何一眼识别你已中招模式坍缩不是理论概念它在训练日志和生成结果中会留下非常清晰、不容忽视的“病灶”。以下是我在上百次训练中总结出的“速查表”观察维度健康状态模式坍缩状态诊断依据生成图像多样性每次torch.randn生成的图风格、姿态、背景、细节均有明显差异所有生成图看起来几乎一样仅存在微小的亮度/对比度变化或仅在图像边缘有细微扰动这是最直观、最致命的证据。打开生成文件夹用肉眼快速浏览20张图如果它们像“孪生兄弟”那就是坍缩了。D_G_z2指标在训练中后期如50% epoch后稳定在0.4-0.7之间并伴随小幅波动长期低于0.2且几乎不随epoch增长而上升D_G_z2是D对G当前产出的“平均评分”。如果它长期低迷说明G的输出在D眼里始终是“一眼假”G根本没有学到新东西。生成图像质量图像整体清晰局部细节如毛发、纹理、边缘丰富图像整体模糊、发灰、缺乏对比度像蒙了一层薄雾或者出现大面积的、不自然的色块或条纹坍缩的G倾向于输出一个“安全”的、统计上最平滑的平均态这在视觉上就是模糊和低对比度。损失函数曲线errD和errG在一定范围内震荡但总体趋势是errD缓慢下降errG缓慢上升errD迅速降到接近0errG长期维持在一个极低的平台如0.01且不再变化这是数学上的“死亡信号”。D已经强大到能把所有G的输出都判为假而G又无力做出任何有效反击系统陷入僵局。提示不要等到训练结束才检查我习惯每10个epoch就保存一次生成样本并用一个简单的脚本自动计算这20张图的LPIPSLearned Perceptual Image Patch Similarity相似度。如果平均相似度高于0.8我就立刻中断训练开始排查。4.2 根治方案五种经过实战检验的“特效药”一旦确诊模式坍缩不要慌下面这些方法我都亲自验证过按优先级排序“降频”疗法减少判别器D的训练强度这是最常用、最有效的第一招。默认是1:1一个batchD和G各更新一次。尝试改为1:2 或 1:3即每个batch里先更新D一次再更新G两次或三次。原理很简单D太强了G还没来得及学就被D“打死”了。给G更多“学习时间”它才有机会摸索出新的模式。我在训练一个花卉数据集时将G的更新次数提高到3次坍缩现象在下一个epoch就消失了。“消炎”疗法在判别器D的最后几层添加DropoutDropout是防止过拟合的利器对D同样适用。在D的最后两个Conv2d层之后添加nn.Dropout2d(0.3)。这相当于给D的大脑“降降温”强制它不能只依赖某几个最强的特征通道来做判断从而迫使G必须提供更全面、更多样化的特征来应对。注意Dropout只加在D上G上绝对不能加否则会破坏G生成的结构稳定性。“营养”疗法更换噪声输入注入更多结构信息标准的torch.randn是纯高斯噪声信息熵很高但缺乏结构。尝试改用条件噪声Conditional Noise例如将一个10维的类别标签向量one-hot与100维的随机噪声拼接作为G的输入。这相当于告诉G“这次请生成一只‘波斯猫’而不是‘随便什么猫’”。类别信息为G提供了强大的先验引导极大地降低了它“走偏”的概率。即使你的任务是无条件生成也可以人为构造一个伪标签效果立竿见影。“手术”疗法修改损失函数引入梯度惩罚Gradient Penalty这是WGAN-GPWasserstein GAN with Gradient Penalty的核心思想可以无缝迁移到DCGAN。它在D的损失函数中加入一项lambda * (||∇_x D(x)_2 - 1||^2)。这项惩罚强制D的梯度范数必须接近1从而保证D的函数是“平滑”的Lipschitz连续从根本上解决了原始GAN损失函数的梯度消失/爆炸问题。虽然增加了计算量但它是治疗顽固性坍缩的终极手段。我用它成功救活了一个在CIFAR-10上训练了100个epoch却毫无进展的DCGAN。“重启”疗法早停Early Stopping与权重回滚当你发现D_G_z2连续10个epoch没有提升且生成图像质量开始倒退变得更模糊这就是模型开始“学坏”的信号。此时立刻停止训练加载上一个D_G_z2最高的checkpoint。不要迷信“训练越久越好”在GAN的世界里过拟合和坍缩往往只有一线之隔。我有一个专门的脚本会在每次D_G_z2创新高时自动备份模型权重和当前的z向量用于复现最佳生成图这让我少走了无数弯路。4.3 经验心得那些论文里不会写的“潜规则”学习率不是越大越好而是越“稳”越好很多人为了追求速度把lr设到0.001甚至更高。结果就是训练像坐过山车errD和errG在0.01和1.0之间疯狂跳跃。DCGAN的0.0002是经过大量实验验证的“黄金值”它保证了梯度更新的每一步都是稳健、可预测的。激进的调参只会让你离真相更远。Batch Size是隐性的“多样性放大器”更大的batch size如128, 256意味着D在每次更新时看到的是更多样化的“真实图假图”混合样本这本身就对模式坍缩有抑制作用。但受限于GPU显存我通常在RTX 3090上用128而在2080Ti上用64。记住宁可降低lr也不要为了增大batch size而牺牲显存导致OOM内存溢出。“可视化”是最好的调试器不要只盯着loss数字。我坚持每5个epoch就用torchvision.utils.save_image保存一组生成图并用matplotlib绘制D_x,D_G_z1,D_G_z2的实时曲线。当曲线出现异常拐点时我立刻去看对应的生成图往往能一眼发现问题所在——比如D_G_z2突然暴跌对应的图里可能出现了大面积的绿色噪点这立刻指向了数据预处理中的色彩通道错误。耐心是唯一的“超参数”DCGAN的训练不是线性的。它常常会经历一个漫长的“平台期”plateauloss几乎不动生成图也毫无起色持续20-30个epoch。绝大多数人会在这个时候放弃。但我的经验是只要D_G_z2没有跌破0.1就值得再等。因为G可能正在内部重组它的特征表示为下一次质的飞跃积蓄能量。我最长的一次等待是47个epoch然后一夜之间图像从模糊的色块变成了清晰的、带着毛发细节的猫脸。那一刻你会相信所有的等待都是值得的。5. 超越DCGAN从“能用”到“好用”的进阶思考DCGAN是一个里程碑但它绝不是终点。当你已经能稳定地生成64×64的清晰图像后下一步的挑战是如何让生成结果更可控、更高质量、更具创意。这里分享几个我亲身实践过的、平滑的进阶路径分辨率跃迁从64×64到256×256直接把DCGAN的网络层数翻倍去生成256×256图效果往往很差。更稳健的方案是渐进式训练Progressive Growing。先用DCGAN在64×64上训练到收敛保存G和D的权重。然后将G的最后一层ConvTranspose2d替换为一个能输出128×128的层并在前面插入一个新的、更宽的特征层同理升级D。用这个“半成品”网络在128×128的数据上继续训练。待稳定后再升级到256×256。这个过程就像搭积木每一步都建立在上一步的坚实基础上避免了从零开始的混沌。可控生成引入StyleGAN的“风格迁移”思想DCGAN是“黑盒”生成你无法控制生成图的具体属性。一个简单而强大的改进是将G的输入噪声z通过一个小型的MLP网络映射成一个“风格向量w”再将这个w作为条件输入到G的每一层的BN层中即nn.BatchNorm2d(ngf, affineFalse)然后手动用w去缩放和偏移BN的输出。这样不同的w就能控制生成图的不同抽象层次w的前几维控制整体姿态和光照中间几维控制面部表情最后几维控制皮肤纹理和毛发细节。这已经非常接近StyleGAN的核心思想而实现起来只需要增加不到20行代码。评估即真理告别主观审美拥抱量化指标不要再问“这张图好不好看”而要问“这张图在FIDFréchet Inception Distance分数上是多少”。FID分数越低说明生成分布与真实分布越接近。我所有的项目都会在训练脚本中集成FID计算每10个epoch自动计算一次并记录到TensorBoard。一个优秀的DCGAN在LSUN-Cat

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2633776.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！