基于潜在扩散模型的高分辨率图像合成-CVPR2022
期刊Conference on Computer Vision and Pattern Recognition (CVPR)论文链接[2112.10752] High-Resolution Image Synthesis with Latent Diffusion Models年份2022关键词扩散模型图像生成从像素空间走向潜空间LDM 如何让扩散模型更快、更强如果这几年关注过 AIGC、文生图或者 Stable Diffusion那大概率已经听过Latent Diffusion ModelLDM这个名字。它对应的经典论文就是 Robin Rombach 等人在 2022 年提出的High-Resolution Image Synthesis with Latent Diffusion Models。这篇工作最核心的贡献不是单纯把图生得更好看而是回答了一个非常关键的问题扩散模型效果很好但为什么训练和推理这么贵有没有办法在尽量不损失质量的前提下把它“做轻”这篇论文给出的答案非常优雅不要再直接在像素空间里做扩散了而是先把图像压到一个更紧凑的潜空间latent space再在这个潜空间里做扩散生成。一、这篇论文到底想解决什么问题在 LDM 之前很多扩散模型都是直接在RGB 像素空间里做去噪和采样。这样做有一个明显问题图像维度太高尤其在高分辨率场景下模型每一步都要处理整张大图训练和推理都非常昂贵。论文里就指出强大的像素空间扩散模型训练往往要消耗数百个 GPU days而推理也因为要顺序执行很多步而代价不小。但问题在于图像里的很多像素级细节其实对“语义内容”并不那么重要。换句话说模型花了大量算力可能只是在拟合一些“人眼不太敏感”的高频细节。论文第 2 页就把这一点讲得很清楚大部分比特其实对应的是感知上不那么重要的信息而扩散模型在像素空间中仍然不得不对所有像素做完整计算。所以作者的核心想法就是先用一个自编码器把图像压缩到感知上基本等价、但维度更低的 latent space再在 latent space 里训练扩散模型。这就是Latent Diffusion Model的出发点。二、LDM 的整体思路两阶段框架这篇论文的方法可以概括成两个阶段。第一阶段感知压缩作者先训练一个Autoencoder包括编码器 E 和解码器 D。输入图像 x 先经过编码器得到 latent 表示 zE(x)再通过解码器恢复为 x~D(z)。这个过程的目标不是做到数学上逐像素完全一致而是做到“感知上等价”重要结构、语义和视觉质量尽量保住不重要的细碎高频信息则可以适度压缩。论文中这个压缩模型结合了感知损失和 patch-based adversarial objective而不是只用简单的 L1/L2 重建。第二阶段潜空间扩散有了 latent 表示以后扩散模型就不再对原图 xxx 建模而是对 latent zzz 建模。也就是说原本的像素空间扩散目标被替换成了 latent 空间版本本质上还是扩散模型只不过工作空间从高维像素空间变成了低维潜空间。这样一来扩散模型就能把主要精力放在更有语义意义的成分上同时计算成本显著下降。三、这篇论文最妙的点不只是“压缩”如果只把这篇论文理解成“先压缩再生成”其实还不够。LDM 真正厉害的地方在于它找到了一个很好的平衡点1. 不是暴力压缩而是“温和压缩”在以前的一些两阶段生成方法里为了让后续模型能跑得动往往要把图像压得很狠这样就容易损失细节。LDM 不一样它利用扩散模型和 U-Net 对二维空间结构的天然优势因此不需要像某些离散 latent 方法那样做过强压缩能够在复杂度降低和细节保留之间找到更好的折中。论文的实验也显示适中的压缩倍率如 f4 或 f8通常表现最好。2. 它把条件控制做成了通用机制LDM 不仅能做无条件图像生成还能接入多种条件比如文本、类别标签、语义图、bounding boxes 等。论文提出了一个很重要的设计在 U-Net 中加入cross-attention把外部条件通过一个条件编码器映射到中间特征层中。也就是说模型不只是“从噪声生成图像”而是可以在生成过程中持续接收文本或布局等条件信息。这个设计后来几乎成了现代文生图系统的标配。3. 它支持更灵活的任务形式论文中LDM 不只是拿来做无条件生成还做了很多条件任务包括文本生成图像类别条件生成layout-to-image语义图到图像超分辨率图像修复inpainting这说明 LDM 的价值不只是“更省算力”而是提供了一个统一且灵活的生成框架。四、实验结果说明了什么从实验上看这篇论文的结论很明确在显著降低计算成本的同时LDM 依然能在多个任务上取得非常强的效果。论文在 CelebA-HQ、FFHQ、LSUN、ImageNet、MS-COCO 等数据集上进行了验证结果显示在无条件图像生成上LDM 在多个数据集上取得了很有竞争力的 FID在 class-conditional ImageNet 上带 classifier-free guidance 的 LDM-4-G 达到了很强的表现在 text-to-image 任务中1.45B 参数的文本条件 LDM 在 COCO 上已经能和当时非常强的方法同台竞争在 inpainting 和 super-resolution 上LDM 也展示了优秀性能同时比像素空间扩散更高效。更重要的是论文反复强调LDM 的优势不是单纯提高某一个指标而是在“性能—算力”之间做到了更好的平衡。五、为什么这篇论文这么重要如果要用一句话概括这篇论文的意义我觉得可以这么说LDM 让扩散模型第一次真正从“效果很好但太贵”走向“效果强、又更可用”。它的重要性主要体现在三个层面。第一它重新定义了扩散模型的工作空间扩散模型不必死守像素空间latent space 同样可以成为高质量生成的主战场。第二它为后来的大规模生成模型打下了结构基础尤其是latent diffusion cross-attention这条路线后来直接影响了主流文生图模型的发展。Stable Diffusion 官方仓库也明确写道它本身就是一种 latent text-to-image diffusion model。第三它启发了很多跨任务、跨模态扩散工作因为它把“自编码器压缩”“潜空间生成”“条件注入”这三部分拆得很清楚所以后来很多研究都能沿着这个框架去改造可以换 encoder/decoder可以换条件输入也可以把 latent diffusion 嵌到恢复、编辑、控制生成等更复杂任务里。六、这篇论文也不是没有局限当然LDM 也不是完美无缺。论文自己就提到一个很现实的问题虽然 LDM 比像素空间扩散高效得多但它依然是顺序采样的生成模型所以在推理速度上仍然慢于 GAN。另一方面由于最终图像仍然需要通过 decoder 从 latent 还原回像素空间因此对于特别强调像素级精确恢复的任务第一阶段 autoencoder 的重建能力可能会成为瓶颈。这也说明LDM 更擅长的是高质量生成与感知质量而不是所有场景下的“严格像素保真”。七、总结High-Resolution Image Synthesis with Latent Diffusion Models这篇论文提出了 LDM 框架用“自编码器压缩 潜空间扩散 条件交叉注意力”三步把高质量扩散生成从昂贵的像素空间迁移到更高效的 latent space 中在图像生成、文生图、超分和修复等多个任务上都取得了非常强的效果。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2475880.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!