扩散模型之（十六）生成高分辨率图像

news2026/3/24 0:46:47

为了生成高分辨率的高质量图像Ho等人2021提出使用由多个分辨率递增的扩散模型组成的pipeline。pipeline模型之间的噪声调节增强Noise conditioning augmentation对最终图像质量至关重要这需要对每个超分辨率模型的条件输入进行数据增强条件噪声有助于减少pipeline设置中的累积误差。U -Net是扩散建模中用于生成高分辨率图像的常用模型架构。图 1. 由多个分辨率递增的扩散模型组成的级联pipeline研究发现最有效的噪声方法是在低分辨率下应用高斯噪声在高分辨率下应用高斯模糊。此外研究还探索了两种条件增强方法这两种方法只需对训练过程进行少量修改。需要注意的是条件噪声仅应用于训练阶段而不应用于推理阶段。截断条件增强会在步骤早期停止扩散过程这适用于低分辨率图像。非截断条件增强会运行完整的低分辨率逆过程直到步骤 0然后通过其进行破坏然后将送入超分辨率模型。两阶段扩散模型unCLIPRamesh 等人2022大量利用 CLIP 文本编码器来生成高质量的文本引导图像。给定一个预训练的 CLIP 模型以及扩散模型的配对训练数据其中是一张图片如果是对应的标题我们可以分别计算 CLIP 文本嵌入和图像嵌入unCLIP并行学习两个模型先验模型根据给定的文本输出 CLIP 图像嵌入.解码器根据图像嵌入和可选的文本生成图像.这两个模型能够实现条件生成因为图 2. unCLIP模型的架构图unCLIP遵循两阶段图像生成过程给定一段文本首先使用 CLIP 模型生成文本嵌入。利用 CLIP 潜在空间可通过文本实现零样本图像处理。扩散或自回归先验处理此 CLIP 文本嵌入以构建图像先验然后构建扩散解码器。该解码器能够根据先验信息生成图像。它还可以根据给定的图像输入生成图像变体同时保持图像的风格和语义。ImagenSaharia 等人2022 并未采用 CLIP 模型而是使用预训练的大型语言模型即冻结的 T5-XXL 文本编码器对文本进行编码以生成图像。通常情况下更大的模型尺寸可以带来更好的图像质量和文本-图像对齐效果。他们发现T5-XXL 和 CLIP 文本编码器在 MS-COCO 数据集上的性能相近但在 DrawBench包含 11 个类别的提示语集上人工评估更倾向于 T5-XXL。当应用无分类器指导时增加这可能会导致更好的图像-文本对齐但图像保真度下降。他们发现这是由于训练集和测试集不匹配造成的也就是说因为训练数据保持在范围内测试数据也应如此。本文介绍了两种阈值策略静态阈值剪辑预测动态阈值在每个采样步骤中如果截取预测结果并除以计算作为某个百分位绝对像素值Imagen 修改了 U-Net 中的几个设计使其成为高效的 U-Net。将模型参数从高分辨率块转移到低分辨率块方法是为较低分辨率添加更多残差锁定按缩放后实现快捷连接为了提高前向传播的速度反转下采样(移到卷积之前)和上采样操作(移到卷积之后)的顺序。研究进一步发现噪声调节增强、动态阈值和高效的 U-Net 对图像质量至关重要但文本编码器大小的缩放比 U-Net 大小更重要。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2442158.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！