VAE与扩散模型的reconstruction

VAE与扩散模型的reconstruction–generation dilemma

news2026/4/30 5:18:03

论文: https://arxiv.org/abs/2603.05630代码: https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.git很多做 latent diffusion 的人都见过一个很别扭的现象你把 VAE 训练得很好重建出来的图像非常清楚rFID 也很好看但后面基于这个 latent space 训练出来的 diffusion model生成效果却不一定更好甚至可能更差。反过来有些 VAE 的重建指标没那么漂亮最后生成出来的图反而更自然。这种“重建越好生成未必越好”的现象近两年已经被反复观察到也被称为reconstruction–generation dilemma。这篇论文的贡献很直接。作者提出了一个非常简单的新指标iFID它本质上还是建立在 VAE 解码质量上但不再只看“原图编码后再解码”的重建而是看“邻近样本在 latent 空间做插值后再解码”的结果。结果发现这个指标和 diffusion 最终的生成 FID 居然有很强的相关性Pearson 和 Spearman 都能到0.85 左右。这件事的意义不小因为长期以来大家几乎默认VAE 的重建指标没法可靠预测 diffusion 的生成质量。而这篇论文第一次给出了一个真正有预测力的替代指标。背景与动机在 latent diffusion 框架里VAE 并不是一个可有可无的前处理模块而是整个生成系统的“地基”。图像先被压到 latent 空间里diffusion model 再在这个 latent 空间中学习分布并生成新样本最后再由 decoder 把 latent 还原成图像。所以latent space 的结构好不好会直接影响后续生成模型到底是在一个“容易泛化的空间”里学习还是在一个“虽然能重建但很难生成”的空间里挣扎。问题是过去大家评估 VAE 时最常用的方式是看重建质量比如 reconstruction FID也就是 rFID。直觉上这似乎很合理如果一个 VAE 连原图都重建不好那它的 latent 表示大概率也不够好反过来重建得越像原图latent 应该越保真后续生成也应该更顺畅。但现实恰恰没有这么简单。越来越多研究发现rFID 和最终生成 FID 往往相关性很弱甚至可能是负相关。也就是说一个更擅长“记住并复原已有图像”的 VAE不一定更适合“支持扩散模型生成新图像”。这一核心矛盾在Figure 1中得到了直观展示左图显示多个 VAE 的 rFID 与 diffusion 的 gFID 几乎无相关性散点分布杂乱甚至呈现轻微负相关趋势右图则显示作者提出的 iFID 与 gFID 呈强正相关数据点紧密沿对角线分布。此外Figure 6附录 A进一步补充了证据在 SiT/XL 模型上传统重建指标如 PSNR、SSIM、LPIPS与 gFID 普遍呈现负相关关系散点图整体呈左上到右下的趋势验证了重建越好、生成越差的困境。这就带来一个很实际的问题如果 rFID 不能指导我们选 VAE那训练 latent diffusion 时就缺少一个可靠的上游评估标准。你可能花了很多精力把 VAE 的重建指标卷得很好最后却发现它并不是更适合生成的那个版本。作者正是针对这个痛点提出问题有没有一种仍然基于 VAE 本身、但能更好预测 diffusion 生成质量的指标方法创新这篇论文的方法非常巧妙甚至可以说“简单得有点反直觉”。作者提出的新指标叫iFIDinterpolated FID。它和普通 rFID 的区别不在于换了更复杂的网络也不在于引入额外训练而只是把“评估对象”从单个样本的重建改成了相邻样本之间插值后的解码结果。具体思路可以直观理解成这样对于数据集里的每个样本先在 latent 空间里找到它最近的邻居然后把这两个 latent 做一个中间插值再把这个插值后的 latent 解码成图像。最后不再比较“重建图”和原始数据分布而是比较“这些插值解码图”和原始数据分布之间的 FID。这个值就是 iFID。这个设计背后的关键洞察是扩散模型生成的新样本本质上并不只是重建训练集样本而更像是在数据流形附近做插值、组合和延展。所以如果一个 latent space 虽然重建能力很强但一旦你在邻近样本之间做插值解码出来的图就开始“崩”、偏离真实数据分布那它其实不适合扩散模型去做生成。相反如果 latent 空间中的邻近插值仍然落在合理的数据流形上那么 diffusion 在这个空间中更容易产生自然、连贯的新样本而不是出现幻觉和怪异过渡。作者进一步提出一个很重要的区分过去说“rFID 预测不了 gFID”这个说法其实太粗了。更准确地讲rFID 主要反映的是 diffusion 采样后期的细节修复能力而 iFID 更反映采样前期的结构导航能力。换句话说rFID 更像在考“把一个已经差不多对的东西修细”而 iFID 更像在考“从噪声里往哪个语义区域走”。最终生成质量更多取决于后者所以 iFID 才会更接近 gFID。Figure 2展示了扩散采样轨迹中 refinement phase小 timestep t和 navigation phase大 timestep t的对比。在 refinement phase从带噪源图像去噪得到的样本与源图像几乎一致主要修复细节而在 navigation phase生成的样本与源图像差异显著主要决定整体结构。Table 1则用定量数据支撑了这一观点在 refinement phaset≤0.2rFID 与 gFID(t) 的 Pearson 相关系数高达 1.00t0 时和 0.37t0.1 时但进入 navigation phaset≥0.4后rFID 的相关性骤降至接近 0而 iFID 的相关性则从 0.67t0.2快速攀升至 0.89t1.0即最终 gFID。这清晰表明rFID 只管修细iFID 才管导航。为了更直观地解释为什么插值质量比重建质量更能预测生成效果作者设计了两个 toy example。Figure 3展示了 25 个高斯混合分布的 2D latent 空间对比左图是孤立模式Isolated各高斯团块彼此分离此时虽然单个样本可以完美重建但任意两个邻近 latent 的插值点都会落到数据流形之外导致 iFID 很差diffusion 采样时在模式间插值也会产生幻觉hallucination右图是连通模式Connected高斯团块之间有重叠插值点仍落在流形上iFID 很好diffusion 生成的样本也更自然。Figure 4进一步对比了重建导向与生成导向的 latent 设计左图中为优化重建两个模式的 latent 被刻意分离解码器容易区分输入重建误差小但插值点落在模式之间导致幻觉右图中两个模式有显著重叠插值合法、生成自然但重建时解码器难以区分输入重建误差变大。这两个 toy example 有力说明了重建优化倾向于分离生成优化需要连通这正是 reconstruction–generation dilemma 的根源。实验结果论文最核心的实验结论很清楚iFID 是第一个对 diffusion gFID 表现出强相关性的 VAE 指标。作者在多组模型上统计后发现iFID 与 gFID 的 Pearson 线性相关和 Spearman 排名相关都接近0.85。相比之下传统 rFID 和 gFID 的相关性很弱甚至在不少情况下是负相关的。这基本正面回答了整篇论文最初的问题以前不是“所有 reconstruction-based 指标都不行”而是大家看错了 reconstruction 的方式。为确保结论的普适性作者在 ImageNet 256×256 上进行了大规模验证。Table 2详细列出了实验中使用的 13 个 VAE 模型涵盖不同架构UNet/ViT、不同 latent 维度4×32×32 到 768×16×16、不同训练目标纯重建、重建等变正则、重建对比学习对齐、重建分布匹配等包括 SD-VAE、FLUX-VAE、SD3-VAE、EQ-VAE、VA-VAE、SOFT-VQ、MAE-TOK、DE-TOK、DM-VAE、REPAE-VAE、RAE 等主流模型。对于每个 VAE作者都训练了 SiT-B 和 SiT-XL 两种规模的 diffusion 模型并在有无 classifier-free guidance 的条件下评估 gFID。Table 3是全文最核心的结果表系统对比了各类 VAE 指标与 diffusion gFID 的相关性PCC 和 SRCC。可以看到传统重建指标PSNR、SSIM、LPIPS与 gFID 普遍呈强负相关-0.7 到 -0.85验证了 reconstruction–generation dilemmarFID 本身与 gFID 相关性很弱-0.04 到 -0.15甚至略负其他非重建指标如 Diffusion Loss、EQ Loss、SE Loss、VF Loss、GMM Loss相关性参差不齐最高仅 0.37唯有 iFID 在所有设置下都达到 Pearson 0.82~0.89、Spearman 0.84~0.92 的强正相关且在 SiT/XL cfg 设置下达到最优0.88/0.92。除了定量指标Figure 5提供了直观的定性验证图中展示了不同 VAE 下解码原始 latent z、最近邻 latent NN(z) 以及插值 latent ẑ 的结果。对于重建导向的 VAE如 SD-VAE、FLUX-VAENN(z) 与 z 语义无关插值解码后的图像模糊、失真、无效而对于生成导向的 VAE如 VA-VAE、RAENN(z) 与 z 语义相似插值解码后的图像真实、连贯、自然。这从视觉层面印证了 iFID 的物理意义它测的是邻近样本插值后是否仍落在数据流形上。Figure 7附录 A进一步可视化了所有非重建指标与 gFID 的散点关系除了 iFID 呈现清晰的线性正相关趋势外其他指标如 EQ Loss、SE Loss、VF Loss、GMM Loss的散点分布都较为分散相关性较弱。这再次凸显了 iFID 作为预测指标的独特优势。更有意思的是作者没有停留在“算总体相关性”这一步而是把 diffusion 采样过程拆成不同阶段来分析。他们发现在采样初期也就是更偏导航阶段时iFID 与样本质量的相关性明显更强而在采样后期也就是更偏细节修复阶段时rFID 的相关性反而更高。这个结果非常关键因为它解释了为什么过去直觉会失效rFID 不是完全没用它只是更适合描述“局部细节还原”这一部分能力但最终 gFID 更多受早期全局结构生成的好坏影响。论文还给了一个很直观的 toy example。作者构造了两种 latent space一种是多个孤立高斯团块组成的空间另一种是这些模式之间更加连通的空间。在第一种空间里单个样本当然可以重建得很好但一旦在邻近模式之间做插值就很容易落到“数据流形之外”解码出来的图不自然这对应较差的 iFID也更容易导致 diffusion 生成时出现 hallucination。第二种空间里插值路径仍然比较贴近真实数据分布所以 iFID 更好生成样本也更自然。这种实验虽然简单但非常有效地把“为什么插值质量比重建质量更接近生成质量”讲明白了。为验证 iFID 的实用性作者还系统分析了其对关键参数选择的敏感性Table 4分析了插值方法线性/掩码/球面、参考集大小50k/200k/1000k及 Top-K 邻居K1/10的影响。结果显示球面插值效果最佳保持高斯先验但线性插值和掩码插值也能达到≈0.8 的相关性参考集从 50k 增至 1000k 提升有限使用 Top-10 邻居随机插值几乎不影响结果。这表明 iFID 对实现细节不敏感具有良好鲁棒性。Table 5分析了插值强度 α 的影响当 α0 时 iFID 退化为 rFID与 gFID 负相关-0.06/-0.15随着 α 从 0.1 增至 0.5与 gFID 的相关性单调递增至 0.89/0.88而与 rFID 的相关性则降至接近 0。这定量验证了核心假设偏离原样本的插值能力才是预测生成的关键且 α0.5等权插值是最具判别力的设置。总结这篇论文最有价值的地方在于它没有再去争论“VAE 到底该不该看重建指标”而是把问题改成了一个更准确的版本我们到底该看哪一种重建相关指标才能真正反映 latent diffusion 的生成潜力。作者给出的答案是单纯看“原样本编码再解码”的重建质量还不够因为 diffusion 生成关心的不只是“能不能把旧样本记住”更关心“在 latent 空间里稍微离开训练样本时是否还能保持在合理的数据流形上”。而 iFID 恰好测到的就是这件事邻近样本之间的 latent 插值是否仍然有效、自然、可生成。从更大的角度看这篇工作其实在提醒大家对生成模型来说好的表示空间不只是“重建保真”更重要的是“局部可插值、全局可泛化”。如果一个 latent 空间只会忠实记忆训练样本却无法支持平滑、自然的插值那它对 diffusion 并不友好。iFID 的提出等于给 latent diffusion 社区补上了一个长期缺失的评估工具。一句话概括这篇论文的核心结论就是真正决定 diffusion 生成效果的不是 VAE 把训练样本复原得多像而是它的 latent 空间是否允许“合理地偏离训练样本”之后仍然生成真实图像。iFID 正是在测这个能力。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2538399.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！