VAE与扩散模型的reconstruction–generation dilemma

news2026/4/30 5:18:03
论文: https://arxiv.org/abs/2603.05630代码: https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.git很多做 latent diffusion 的人都见过一个很别扭的现象你把 VAE 训练得很好重建出来的图像非常清楚rFID 也很好看但后面基于这个 latent space 训练出来的 diffusion model生成效果却不一定更好甚至可能更差。反过来有些 VAE 的重建指标没那么漂亮最后生成出来的图反而更自然。这种“重建越好生成未必越好”的现象近两年已经被反复观察到也被称为reconstruction–generation dilemma。这篇论文的贡献很直接。作者提出了一个非常简单的新指标iFID它本质上还是建立在 VAE 解码质量上但不再只看“原图编码后再解码”的重建而是看“邻近样本在 latent 空间做插值后再解码”的结果。结果发现这个指标和 diffusion 最终的生成 FID 居然有很强的相关性Pearson 和 Spearman 都能到0.85 左右。这件事的意义不小因为长期以来大家几乎默认VAE 的重建指标没法可靠预测 diffusion 的生成质量。而这篇论文第一次给出了一个真正有预测力的替代指标。背景与动机在 latent diffusion 框架里VAE 并不是一个可有可无的前处理模块而是整个生成系统的“地基”。图像先被压到 latent 空间里diffusion model 再在这个 latent 空间中学习分布并生成新样本最后再由 decoder 把 latent 还原成图像。所以latent space 的结构好不好会直接影响后续生成模型到底是在一个“容易泛化的空间”里学习还是在一个“虽然能重建但很难生成”的空间里挣扎。问题是过去大家评估 VAE 时最常用的方式是看重建质量比如 reconstruction FID也就是 rFID。直觉上这似乎很合理如果一个 VAE 连原图都重建不好那它的 latent 表示大概率也不够好反过来重建得越像原图latent 应该越保真后续生成也应该更顺畅。但现实恰恰没有这么简单。越来越多研究发现rFID 和最终生成 FID 往往相关性很弱甚至可能是负相关。也就是说一个更擅长“记住并复原已有图像”的 VAE不一定更适合“支持扩散模型生成新图像”。这一核心矛盾在Figure 1中得到了直观展示左图显示多个 VAE 的 rFID 与 diffusion 的 gFID 几乎无相关性散点分布杂乱甚至呈现轻微负相关趋势右图则显示作者提出的 iFID 与 gFID 呈强正相关数据点紧密沿对角线分布。此外Figure 6附录 A进一步补充了证据在 SiT/XL 模型上传统重建指标如 PSNR、SSIM、LPIPS与 gFID 普遍呈现负相关关系散点图整体呈左上到右下的趋势验证了重建越好、生成越差的困境。这就带来一个很实际的问题如果 rFID 不能指导我们选 VAE那训练 latent diffusion 时就缺少一个可靠的上游评估标准。你可能花了很多精力把 VAE 的重建指标卷得很好最后却发现它并不是更适合生成的那个版本。作者正是针对这个痛点提出问题有没有一种仍然基于 VAE 本身、但能更好预测 diffusion 生成质量的指标 方法创新这篇论文的方法非常巧妙甚至可以说“简单得有点反直觉”。作者提出的新指标叫iFIDinterpolated FID。它和普通 rFID 的区别不在于换了更复杂的网络也不在于引入额外训练而只是把“评估对象”从单个样本的重建改成了相邻样本之间插值后的解码结果。具体思路可以直观理解成这样对于数据集里的每个样本先在 latent 空间里找到它最近的邻居然后把这两个 latent 做一个中间插值再把这个插值后的 latent 解码成图像。最后不再比较“重建图”和原始数据分布而是比较“这些插值解码图”和原始数据分布之间的 FID。这个值就是 iFID。这个设计背后的关键洞察是扩散模型生成的新样本本质上并不只是重建训练集样本而更像是在数据流形附近做插值、组合和延展。所以如果一个 latent space 虽然重建能力很强但一旦你在邻近样本之间做插值解码出来的图就开始“崩”、偏离真实数据分布那它其实不适合扩散模型去做生成。相反如果 latent 空间中的邻近插值仍然落在合理的数据流形上那么 diffusion 在这个空间中更容易产生自然、连贯的新样本而不是出现幻觉和怪异过渡。作者进一步提出一个很重要的区分过去说“rFID 预测不了 gFID”这个说法其实太粗了。更准确地讲rFID 主要反映的是 diffusion 采样后期的细节修复能力而 iFID 更反映采样前期的结构导航能力。换句话说rFID 更像在考“把一个已经差不多对的东西修细”而 iFID 更像在考“从噪声里往哪个语义区域走”。最终生成质量更多取决于后者所以 iFID 才会更接近 gFID。Figure 2展示了扩散采样轨迹中 refinement phase小 timestep t和 navigation phase大 timestep t的对比。在 refinement phase从带噪源图像去噪得到的样本与源图像几乎一致主要修复细节而在 navigation phase生成的样本与源图像差异显著主要决定整体结构。Table 1则用定量数据支撑了这一观点在 refinement phaset≤0.2rFID 与 gFID(t) 的 Pearson 相关系数高达 1.00t0 时和 0.37t0.1 时但进入 navigation phaset≥0.4后rFID 的相关性骤降至接近 0而 iFID 的相关性则从 0.67t0.2快速攀升至 0.89t1.0即最终 gFID。这清晰表明rFID 只管修细iFID 才管导航。为了更直观地解释为什么插值质量比重建质量更能预测生成效果作者设计了两个 toy example。Figure 3展示了 25 个高斯混合分布的 2D latent 空间对比左图是孤立模式Isolated各高斯团块彼此分离此时虽然单个样本可以完美重建但任意两个邻近 latent 的插值点都会落到数据流形之外导致 iFID 很差diffusion 采样时在模式间插值也会产生幻觉hallucination右图是连通模式Connected高斯团块之间有重叠插值点仍落在流形上iFID 很好diffusion 生成的样本也更自然。Figure 4进一步对比了重建导向与生成导向的 latent 设计左图中为优化重建两个模式的 latent 被刻意分离解码器容易区分输入重建误差小但插值点落在模式之间导致幻觉右图中两个模式有显著重叠插值合法、生成自然但重建时解码器难以区分输入重建误差变大。这两个 toy example 有力说明了重建优化倾向于分离生成优化需要连通这正是 reconstruction–generation dilemma 的根源。 实验结果论文最核心的实验结论很清楚iFID 是第一个对 diffusion gFID 表现出强相关性的 VAE 指标。作者在多组模型上统计后发现iFID 与 gFID 的 Pearson 线性相关和 Spearman 排名相关都接近0.85。相比之下传统 rFID 和 gFID 的相关性很弱甚至在不少情况下是负相关的。这基本正面回答了整篇论文最初的问题以前不是“所有 reconstruction-based 指标都不行”而是大家看错了 reconstruction 的方式。为确保结论的普适性作者在 ImageNet 256×256 上进行了大规模验证。Table 2详细列出了实验中使用的 13 个 VAE 模型涵盖不同架构UNet/ViT、不同 latent 维度4×32×32 到 768×16×16、不同训练目标纯重建、重建等变正则、重建对比学习对齐、重建分布匹配等包括 SD-VAE、FLUX-VAE、SD3-VAE、EQ-VAE、VA-VAE、SOFT-VQ、MAE-TOK、DE-TOK、DM-VAE、REPAE-VAE、RAE 等主流模型。对于每个 VAE作者都训练了 SiT-B 和 SiT-XL 两种规模的 diffusion 模型并在有无 classifier-free guidance 的条件下评估 gFID。Table 3是全文最核心的结果表系统对比了各类 VAE 指标与 diffusion gFID 的相关性PCC 和 SRCC。可以看到传统重建指标PSNR、SSIM、LPIPS与 gFID 普遍呈强负相关-0.7 到 -0.85验证了 reconstruction–generation dilemmarFID 本身与 gFID 相关性很弱-0.04 到 -0.15甚至略负其他非重建指标如 Diffusion Loss、EQ Loss、SE Loss、VF Loss、GMM Loss相关性参差不齐最高仅 0.37唯有 iFID 在所有设置下都达到 Pearson 0.82~0.89、Spearman 0.84~0.92 的强正相关且在 SiT/XL cfg 设置下达到最优0.88/0.92。除了定量指标Figure 5提供了直观的定性验证图中展示了不同 VAE 下解码原始 latent z、最近邻 latent NN(z) 以及插值 latent ẑ 的结果。对于重建导向的 VAE如 SD-VAE、FLUX-VAENN(z) 与 z 语义无关插值解码后的图像模糊、失真、无效而对于生成导向的 VAE如 VA-VAE、RAENN(z) 与 z 语义相似插值解码后的图像真实、连贯、自然。这从视觉层面印证了 iFID 的物理意义它测的是邻近样本插值后是否仍落在数据流形上。Figure 7附录 A进一步可视化了所有非重建指标与 gFID 的散点关系除了 iFID 呈现清晰的线性正相关趋势外其他指标如 EQ Loss、SE Loss、VF Loss、GMM Loss的散点分布都较为分散相关性较弱。这再次凸显了 iFID 作为预测指标的独特优势。更有意思的是作者没有停留在“算总体相关性”这一步而是把 diffusion 采样过程拆成不同阶段来分析。他们发现在采样初期也就是更偏导航阶段时iFID 与样本质量的相关性明显更强而在采样后期也就是更偏细节修复阶段时rFID 的相关性反而更高。这个结果非常关键因为它解释了为什么过去直觉会失效rFID 不是完全没用它只是更适合描述“局部细节还原”这一部分能力但最终 gFID 更多受早期全局结构生成的好坏影响。论文还给了一个很直观的 toy example。作者构造了两种 latent space一种是多个孤立高斯团块组成的空间另一种是这些模式之间更加连通的空间。在第一种空间里单个样本当然可以重建得很好但一旦在邻近模式之间做插值就很容易落到“数据流形之外”解码出来的图不自然这对应较差的 iFID也更容易导致 diffusion 生成时出现 hallucination。第二种空间里插值路径仍然比较贴近真实数据分布所以 iFID 更好生成样本也更自然。这种实验虽然简单但非常有效地把“为什么插值质量比重建质量更接近生成质量”讲明白了。为验证 iFID 的实用性作者还系统分析了其对关键参数选择的敏感性Table 4分析了插值方法线性/掩码/球面、参考集大小50k/200k/1000k及 Top-K 邻居K1/10的影响。结果显示球面插值效果最佳保持高斯先验但线性插值和掩码插值也能达到≈0.8 的相关性参考集从 50k 增至 1000k 提升有限使用 Top-10 邻居随机插值几乎不影响结果。这表明 iFID 对实现细节不敏感具有良好鲁棒性。Table 5分析了插值强度 α 的影响当 α0 时 iFID 退化为 rFID与 gFID 负相关-0.06/-0.15随着 α 从 0.1 增至 0.5与 gFID 的相关性单调递增至 0.89/0.88而与 rFID 的相关性则降至接近 0。这定量验证了核心假设偏离原样本的插值能力才是预测生成的关键且 α0.5等权插值是最具判别力的设置。 总结这篇论文最有价值的地方在于它没有再去争论“VAE 到底该不该看重建指标”而是把问题改成了一个更准确的版本我们到底该看哪一种重建相关指标才能真正反映 latent diffusion 的生成潜力。作者给出的答案是单纯看“原样本编码再解码”的重建质量还不够因为 diffusion 生成关心的不只是“能不能把旧样本记住”更关心“在 latent 空间里稍微离开训练样本时是否还能保持在合理的数据流形上”。而 iFID 恰好测到的就是这件事邻近样本之间的 latent 插值是否仍然有效、自然、可生成。从更大的角度看这篇工作其实在提醒大家对生成模型来说好的表示空间不只是“重建保真”更重要的是“局部可插值、全局可泛化”。如果一个 latent 空间只会忠实记忆训练样本却无法支持平滑、自然的插值那它对 diffusion 并不友好。iFID 的提出等于给 latent diffusion 社区补上了一个长期缺失的评估工具。一句话概括这篇论文的核心结论就是真正决定 diffusion 生成效果的不是 VAE 把训练样本复原得多像而是它的 latent 空间是否允许“合理地偏离训练样本”之后仍然生成真实图像。iFID 正是在测这个能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2538399.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…