扩散薛定谔桥(Diffusion Schrödinger Bridge)
扩散薛定谔桥Diffusion Schrödinger Bridge1. 概述扩散薛定谔桥Diffusion Schrödinger Bridge, DSB是一类在两个端点分布之间学习随机过渡动力学的方法。其核心目标不是仅恢复终点样本而是构造一条满足边界约束、且尽量接近某一参考扩散过程的路径分布。在生成建模语境下DSB 将“从简单分布到复杂分布”或“从源域到目标域”的问题表述为一个路径空间上的熵正则化传输问题。(NeurIPS 会议论文集)与标准扩散模型相比DSB 的关键特征在于其两端不必固定为“数据分布—高斯噪声分布”而可以是任意两个给定分布因此它天然适合无条件生成中的“先验到数据”建模也适合条件生成中的“源域到目标域”桥接例如图像恢复、图像翻译、跨时相生成和状态演化建模。I2SB 正是这一思想在图像到图像条件生成中的代表性实现。(NeurIPS 会议论文集)2. 数学定义与问题形式设有两个边缘分布初始分布p 0 p_0p0终止分布p 1 p_1p1并给定一个参考随机过程R RR通常为布朗运动或某类扩散过程。薛定谔桥问题可表述为在所有满足两端边界约束的路径分布中寻找一个与参考过程最接近的路径分布P ∗ P^*P∗P ∗ arg min P : , P 0 p 0 , ; P 1 p 1 K L ( P ∣ R ) . P^*\arg\min_{P:,P_0p_0,;P_1p_1}\mathrm{KL}(P|R).P∗argP:,P0p0,;P1p1minKL(P∣R).该形式表明DSB 的本质不是学习一个静态映射x ↦ y x\mapsto yx↦y而是学习一个受边界分布约束的随机动力系统。从最优传输角度看它可视为动态熵正则化最优传输当扩散噪声趋于零时其路径与 OT 视角下的确定性传输具有紧密联系。(NeurIPS 会议论文集)3. 与标准扩散模型的关系3.1 相似性训练接口层面的继承大量 DSB 方法尤其是 I2SB一般在实现上沿用标准扩散模型的训练接口随机采样时间t tt构造中间状态x t x_txt输入神经网络( x t , t , cond ) (x_t,t,\text{cond})(xt,t,cond)预测噪声、score 或等价修正量采用 MSE 一类回归损失。(Proceedings of Machine Learning Research)因此从代码结构、网络骨干和损失外形上看DSB 常常与 diffusion-based training 高度相似。3.2 差异性建模对象与概率路径的变化然而DSB 与标准扩散模型的根本差异并不在于损失公式的表面形式而在于建模对象与概率路径标准扩散模型主要建模“数据分布↔ \leftrightarrow↔噪声分布”的加噪—去噪过程DSB 建模的是“分布p 0 ↔ p 1 p_0 \leftrightarrow p_1p0↔p1”之间的桥接动力学其中两端都可以是真实分布。(NeurIPS 会议论文集)因此可以说 DSB 在工程实现上常借用 diffusion 的训练框架但其理论目标是更一般的双边分布桥接问题而非单纯的“从噪声恢复数据”。4. 与最优传输、Flow Matching 的关系DSB 与最优传输OT之间存在清晰联系。OT 关注的是以最小代价将分布p 0 p_0p0搬运至p 1 p_1p1的确定性路径而 DSB 则是在参考随机过程的约束下寻找满足边界条件的最优随机路径因此常被理解为带熵正则的动态 OT。(NeurIPS 会议论文集)与 Flow Matching 相比DSB 原生更偏向随机动力学 / SDE 视角而 Flow Matching 更偏向确定性速度场 / ODE 视角。不过后续工作已表明score matching、flow matching 与 Schrödinger bridge 可以在“simulation-free stochastic dynamics learning”的统一框架下理解。[SF]²M 就是一个重要代表它将 score matching 与 flow matching 共同解释为 Schrödinger bridge 视角下的训练目标推广。(Proceedings of Machine Learning Research)5. 方法分类无条件 DSB 与条件 DSB5.1 无条件 DSB无条件 DSB 的典型设定是起点简单先验分布如高斯终点真实数据分布目标是在有限时间内构造一个随机桥使样本从先验逐步演化为数据样本。经典 DSB 工作通过近似 Iterative Proportional FittingIPF来交替逼近 forward / backward dynamics从而求解该桥。(NeurIPS 会议论文集)5.2 条件 DSBI2SBI2SB 面向图像到图像任务将两端设为源域分布如退化图、模糊图、灾前图目标域分布如清晰图、恢复图、灾后图I2SB 的关键贡献在于它在一类可 tractable 的 bridge 上推导出了给定边界对( X 0 , X 1 ) (X_0,X_1)(X0,X1)时中间态边缘的解析形式从而将原本复杂的 bridge training 转化为与标准扩散训练相似的、可大规模扩展的监督回归框架。(Proceedings of Machine Learning Research)6. 模型结构设计从神经网络实现层面看DSB 并不依赖某种唯一的特定架构。其关键不在于“必须采用何种 backbone”而在于“如何参数化 bridge dynamics / score / drift / velocity”。6.1 经典 DSB 的结构特征经典 DSB 需要近似 forward 和 backward 两个方向的动力学因此常采用两套时间相关网络或通过不同训练阶段交替拟合同一类时间条件模型。原始工作在图像实验中采用了简化版 U-Net。(NeurIPS 会议论文集)6.2 I2SB 的结构特征I2SB 在工程上基本沿用标准扩散主干主干网络U-Net输入中间态X t X_tXt与时间t tt条件源端样本X 0 X_0X0必要时可扩展为 mask、文本、几何先验等输出噪声、score 或等价参数化目标。(Proceedings of Machine Learning Research)因此在实际应用中I2SB 更像是bridge-aware conditional diffusion而不是一种完全脱离 diffusion 工程范式的新骨干网络。7. 训练机制经典 DSB 与 I2SB 的区别7.1 经典 DSB基于 IPF 的交替训练经典 DSB 的训练可理解为一个近似 IPF 过程固定当前 forward process采样 forward paths拟合 backward dynamics固定 backward process采样 backward paths再拟合 forward dynamics多轮外层迭代后逐步逼近桥解。(NeurIPS 会议论文集)这种训练方式直接反映了 SB 求解的双向耦合本质但训练流程相对复杂数值负担也较重。经典 DSB 训练伪代码Algorithm 1 Unconditional Diffusion Schrödinger Bridge Training Input: prior distribution p_prior data distribution p_data ForwardNet, BackwardNet Initialize model parameters for outer_iter 1 ... K do # Step A: fit backward dynamics for step 1 ... N1 do sample z0 ~ p_prior simulate forward trajectory using ForwardNet: z0 - z1 - ... - zT update BackwardNet so that it predicts how to move from zt to z_{t-1} end for # Step B: fit forward dynamics for step 1 ... N2 do sample xT ~ p_data simulate backward trajectory using BackwardNet: xT - x_{T-1} - ... - x0 update ForwardNet so that it predicts how to move from xt to x_{t1} end for end for Output: trained ForwardNet, BackwardNet经典 DSB 推理伪代码Algorithm 2 Unconditional Diffusion Schrödinger Bridge Sampling Input: z0 ~ p_prior trained ForwardNet x - z0 for t 0 ... T-1 do pred - ForwardNet(x, t) x - bridge_forward_step(x, pred, t) end for return x7.2 I2SB解析中间态 监督回归I2SB 的训练逻辑显著不同。给定边界对( X 0 , X 1 ) (X_0,X_1)(X0,X1)后I2SB 推导出中间态条件边缘q ( X t ∣ X 0 , X 1 ) N ( μ t ( X 0 , X 1 ) , Σ t ) . q(X_t \mid X_0, X_1)\mathcal{N}(\mu_t(X_0,X_1), \Sigma_t).q(Xt∣X0,X1)N(μt(X0,X1),Σt).这意味着训练时无需先数值模拟整条 bridge path而可以直接采样边界对( X 0 , X 1 ) (X_0,X_1)(X0,X1)随机采样时间t tt从解析中间态分布中采样X t X_tXt构造解析可得的监督目标用标准扩散式网络做监督回归。(Proceedings of Machine Learning Research)这正是 I2SB 所谓的simulation-free训练思想。I2SB 训练伪代码Algorithm 3 I2SB Training Input: paired samples (X0, X1) Model(Xt, t, condX0) for iter 1 ... MaxIter do sample (X0, X1) sample t ~ Uniform(0, 1) # sample bridge state sample Xt ~ q_bridge(Xt | X0, X1, t) # compute analytic target target - bridge_target(Xt, X0, X1, t) pred - Model(Xt, t, condX0) loss - MSE(pred, target) update model parameters end for Output: trained ModelI2SB 推理伪代码Algorithm 4 I2SB Sampling Input: source sample X0 trained Model x - X0 for t T ... 1 do pred - Model(x, t, condX0) x - bridge_step(x, pred, t) end for return x8. I2SB 中最关键的两步中间态采样与监督目标构造这是理解 I2SB 的核心。8.1 第 3 步采样中间态X t X_tXt训练中常写为X t ∼ q bridge ( X t ∣ X 0 , X 1 , t ) . X_t \sim q_{\text{bridge}}(X_t \mid X_0, X_1, t).Xt∼qbridge(Xt∣X0,X1,t).这一过程通常不是模型学习出来的而是由 bridge 的数学形式事先规定好的。I2SB 的关键结论是在其选取的 tractable nonlinear diffusion bridge 类中中间态边缘可以解析写成高斯分布因此X t X_tXt可直接按公式采样。(Proceedings of Machine Learning Research)从实现角度看这一步通常等价于mu_tweighted_mean(X0,X1,t)var_tbridge_variance(t)epsNormal(0,I).sample_like(X0)Xtmu_tsqrt(var_t)*eps因此桥的形式是预先设计和推导的具体某个中间态样本是从该分布中随机采样得到的模型本身不负责“学习如何生成训练中间态分布”。8.2 第 4 步构造监督目标 target在 I2SB 中监督目标通常同样由解析公式给出而不是由模型自行定义。以论文中的常见参数化为例目标项可写为target X t − X 0 σ t . \text{target}\frac{X_t-X_0}{\sigma_t}.targetσtXt−X0.这意味着给定中间态X t X_tXt、边界端点X 0 X_0X0和噪声尺度σ t \sigma_tσt后监督信号可直接计算出来。模型学习的是( X t , t , cond ) ↦ target . (X_t,t,\text{cond}) \mapsto \text{target}.(Xt,t,cond)↦target.而不是( X 0 , X 1 , t ) ↦ q ( X t ∣ X 0 , X 1 ) . (X_0,X_1,t) \mapsto q(X_t|X_0,X_1).(X0,X1,t)↦q(Xt∣X0,X1).换言之在 I2SB 框架中第 3 步是“按 bridge 公式出题”第 4 步是“按解析表达式给标准答案”神经网络则是“学习如何解这道题”。(Proceedings of Machine Learning Research)这两步的角色划分预先规定 / 理论推导得到的部分bridge schedule中间态分布q ( X t ∣ X 0 , X 1 ) q(X_t|X_0,X_1)q(Xt∣X0,X1)target 的解析形式。(Proceedings of Machine Learning Research)模型学习的部分从( X t , t , cond ) (X_t,t,\text{cond})(Xt,t,cond)预测上述 target从而掌握 bridge 上的局部更新规律。(Proceedings of Machine Learning Research)这也是 I2SB 能够大规模训练的重要原因它把“桥样本构造”和“监督信号构造”解析化了从而将训练问题化简为一个稳定的监督回归问题。(Proceedings of Machine Learning Research)9. 噪声在 DSB 中扮演的角色DSB 不是“没有噪声”而是“噪声不再只是唯一端点”。在标准 diffusion 中噪声往往是一个显式端点在 DSB 中噪声主要用于维持桥的随机性构造桥上的中间态保证生成结果具有多样性。(NeurIPS 会议论文集)因此对 DSB 更准确的表述是它不要求必须把样本一路加噪到纯高斯它更关心如何在两端之间定义一个带噪的随机桥接过程。10. 代表性工作与方法脉络10.1 Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling这是经典 DSB 工作核心贡献在于将 SB 问题与 score-based generative modeling 联系起来并通过近似 IPF 给出可训练的 DSB 求解方式。其第一轮 DSB 迭代可恢复出与标准 score-based diffusion 紧密相关的方法视角。(NeurIPS 会议论文集)10.2 I²SB: Image-to-Image Schrödinger Bridge这是条件图像生成语境下最具代表性的 DSB 方法。其关键创新在于利用一类 tractable nonlinear diffusion bridge 的解析边缘分布将 bridge learning 化简为 simulation-free 的扩散式训练从而高效支持图像恢复与图像到图像建模。(Proceedings of Machine Learning Research)10.3 Simulation-Free Schrödinger Bridges via Score and Flow Matching该工作进一步从统一视角解释了 Schrödinger bridge、score matching 与 flow matching 的关系说明 bridge learning 不仅可与 diffusion 视角相连也可与 flow-based training 形成更广义的统一框架。(Proceedings of Machine Learning Research)11. 总结扩散薛定谔桥是一类以双端分布约束为核心的随机生成建模方法。与标准 diffusion 相比它并未简单改变训练外壳而是改变了底层问题设定从“噪声—数据”的单端去噪框架扩展为“分布 A—分布 B”的桥接框架。经典 DSB 借助 IPF 近似求解双向桥过程I2SB 则通过解析中间态与解析监督目标将桥学习化为可扩展的 diffusion-style supervised regression而后续 simulation-free 工作又将 bridge、score 和 flow 进一步纳入统一理解。(NeurIPS 会议论文集)如果把它压缩成一句最核心的话可以写成DSB 的本质不是“从噪声恢复数据”而是“在两个端点分布之间学习一条随机但受约束的演化路径”I2SB 则是在图像到图像条件生成中将这一桥接过程做成了解析可采样、训练可扩展的扩散式模型。(NeurIPS 会议论文集)
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2461042.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!