扩散薛定谔桥(Diffusion Schrödinger Bridge)

news2026/3/30 20:59:15
扩散薛定谔桥Diffusion Schrödinger Bridge1. 概述扩散薛定谔桥Diffusion Schrödinger Bridge, DSB是一类在两个端点分布之间学习随机过渡动力学的方法。其核心目标不是仅恢复终点样本而是构造一条满足边界约束、且尽量接近某一参考扩散过程的路径分布。在生成建模语境下DSB 将“从简单分布到复杂分布”或“从源域到目标域”的问题表述为一个路径空间上的熵正则化传输问题。(NeurIPS 会议论文集)与标准扩散模型相比DSB 的关键特征在于其两端不必固定为“数据分布—高斯噪声分布”而可以是任意两个给定分布因此它天然适合无条件生成中的“先验到数据”建模也适合条件生成中的“源域到目标域”桥接例如图像恢复、图像翻译、跨时相生成和状态演化建模。I2SB 正是这一思想在图像到图像条件生成中的代表性实现。(NeurIPS 会议论文集)2. 数学定义与问题形式设有两个边缘分布初始分布p 0 p_0p0​终止分布p 1 p_1p1​并给定一个参考随机过程R RR通常为布朗运动或某类扩散过程。薛定谔桥问题可表述为在所有满足两端边界约束的路径分布中寻找一个与参考过程最接近的路径分布P ∗ P^*P∗P ∗ arg ⁡ min ⁡ P : , P 0 p 0 , ; P 1 p 1 K L ( P ∣ R ) . P^*\arg\min_{P:,P_0p_0,;P_1p_1}\mathrm{KL}(P|R).P∗argP:,P0​p0​,;P1​p1​min​KL(P∣R).该形式表明DSB 的本质不是学习一个静态映射x ↦ y x\mapsto yx↦y而是学习一个受边界分布约束的随机动力系统。从最优传输角度看它可视为动态熵正则化最优传输当扩散噪声趋于零时其路径与 OT 视角下的确定性传输具有紧密联系。(NeurIPS 会议论文集)3. 与标准扩散模型的关系3.1 相似性训练接口层面的继承大量 DSB 方法尤其是 I2SB一般在实现上沿用标准扩散模型的训练接口随机采样时间t tt构造中间状态x t x_txt​输入神经网络( x t , t , cond ) (x_t,t,\text{cond})(xt​,t,cond)预测噪声、score 或等价修正量采用 MSE 一类回归损失。(Proceedings of Machine Learning Research)因此从代码结构、网络骨干和损失外形上看DSB 常常与 diffusion-based training 高度相似。3.2 差异性建模对象与概率路径的变化然而DSB 与标准扩散模型的根本差异并不在于损失公式的表面形式而在于建模对象与概率路径标准扩散模型主要建模“数据分布↔ \leftrightarrow↔噪声分布”的加噪—去噪过程DSB 建模的是“分布p 0 ↔ p 1 p_0 \leftrightarrow p_1p0​↔p1​”之间的桥接动力学其中两端都可以是真实分布。(NeurIPS 会议论文集)因此可以说 DSB 在工程实现上常借用 diffusion 的训练框架但其理论目标是更一般的双边分布桥接问题而非单纯的“从噪声恢复数据”。4. 与最优传输、Flow Matching 的关系DSB 与最优传输OT之间存在清晰联系。OT 关注的是以最小代价将分布p 0 p_0p0​搬运至p 1 p_1p1​的确定性路径而 DSB 则是在参考随机过程的约束下寻找满足边界条件的最优随机路径因此常被理解为带熵正则的动态 OT。(NeurIPS 会议论文集)与 Flow Matching 相比DSB 原生更偏向随机动力学 / SDE 视角而 Flow Matching 更偏向确定性速度场 / ODE 视角。不过后续工作已表明score matching、flow matching 与 Schrödinger bridge 可以在“simulation-free stochastic dynamics learning”的统一框架下理解。[SF]²M 就是一个重要代表它将 score matching 与 flow matching 共同解释为 Schrödinger bridge 视角下的训练目标推广。(Proceedings of Machine Learning Research)5. 方法分类无条件 DSB 与条件 DSB5.1 无条件 DSB无条件 DSB 的典型设定是起点简单先验分布如高斯终点真实数据分布目标是在有限时间内构造一个随机桥使样本从先验逐步演化为数据样本。经典 DSB 工作通过近似 Iterative Proportional FittingIPF来交替逼近 forward / backward dynamics从而求解该桥。(NeurIPS 会议论文集)5.2 条件 DSBI2SBI2SB 面向图像到图像任务将两端设为源域分布如退化图、模糊图、灾前图目标域分布如清晰图、恢复图、灾后图I2SB 的关键贡献在于它在一类可 tractable 的 bridge 上推导出了给定边界对( X 0 , X 1 ) (X_0,X_1)(X0​,X1​)时中间态边缘的解析形式从而将原本复杂的 bridge training 转化为与标准扩散训练相似的、可大规模扩展的监督回归框架。(Proceedings of Machine Learning Research)6. 模型结构设计从神经网络实现层面看DSB 并不依赖某种唯一的特定架构。其关键不在于“必须采用何种 backbone”而在于“如何参数化 bridge dynamics / score / drift / velocity”。6.1 经典 DSB 的结构特征经典 DSB 需要近似 forward 和 backward 两个方向的动力学因此常采用两套时间相关网络或通过不同训练阶段交替拟合同一类时间条件模型。原始工作在图像实验中采用了简化版 U-Net。(NeurIPS 会议论文集)6.2 I2SB 的结构特征I2SB 在工程上基本沿用标准扩散主干主干网络U-Net输入中间态X t X_tXt​与时间t tt条件源端样本X 0 X_0X0​必要时可扩展为 mask、文本、几何先验等输出噪声、score 或等价参数化目标。(Proceedings of Machine Learning Research)因此在实际应用中I2SB 更像是bridge-aware conditional diffusion而不是一种完全脱离 diffusion 工程范式的新骨干网络。7. 训练机制经典 DSB 与 I2SB 的区别7.1 经典 DSB基于 IPF 的交替训练经典 DSB 的训练可理解为一个近似 IPF 过程固定当前 forward process采样 forward paths拟合 backward dynamics固定 backward process采样 backward paths再拟合 forward dynamics多轮外层迭代后逐步逼近桥解。(NeurIPS 会议论文集)这种训练方式直接反映了 SB 求解的双向耦合本质但训练流程相对复杂数值负担也较重。经典 DSB 训练伪代码Algorithm 1 Unconditional Diffusion Schrödinger Bridge Training Input: prior distribution p_prior data distribution p_data ForwardNet, BackwardNet Initialize model parameters for outer_iter 1 ... K do # Step A: fit backward dynamics for step 1 ... N1 do sample z0 ~ p_prior simulate forward trajectory using ForwardNet: z0 - z1 - ... - zT update BackwardNet so that it predicts how to move from zt to z_{t-1} end for # Step B: fit forward dynamics for step 1 ... N2 do sample xT ~ p_data simulate backward trajectory using BackwardNet: xT - x_{T-1} - ... - x0 update ForwardNet so that it predicts how to move from xt to x_{t1} end for end for Output: trained ForwardNet, BackwardNet经典 DSB 推理伪代码Algorithm 2 Unconditional Diffusion Schrödinger Bridge Sampling Input: z0 ~ p_prior trained ForwardNet x - z0 for t 0 ... T-1 do pred - ForwardNet(x, t) x - bridge_forward_step(x, pred, t) end for return x7.2 I2SB解析中间态 监督回归I2SB 的训练逻辑显著不同。给定边界对( X 0 , X 1 ) (X_0,X_1)(X0​,X1​)后I2SB 推导出中间态条件边缘q ( X t ∣ X 0 , X 1 ) N ( μ t ( X 0 , X 1 ) , Σ t ) . q(X_t \mid X_0, X_1)\mathcal{N}(\mu_t(X_0,X_1), \Sigma_t).q(Xt​∣X0​,X1​)N(μt​(X0​,X1​),Σt​).这意味着训练时无需先数值模拟整条 bridge path而可以直接采样边界对( X 0 , X 1 ) (X_0,X_1)(X0​,X1​)随机采样时间t tt从解析中间态分布中采样X t X_tXt​构造解析可得的监督目标用标准扩散式网络做监督回归。(Proceedings of Machine Learning Research)这正是 I2SB 所谓的simulation-free训练思想。I2SB 训练伪代码Algorithm 3 I2SB Training Input: paired samples (X0, X1) Model(Xt, t, condX0) for iter 1 ... MaxIter do sample (X0, X1) sample t ~ Uniform(0, 1) # sample bridge state sample Xt ~ q_bridge(Xt | X0, X1, t) # compute analytic target target - bridge_target(Xt, X0, X1, t) pred - Model(Xt, t, condX0) loss - MSE(pred, target) update model parameters end for Output: trained ModelI2SB 推理伪代码Algorithm 4 I2SB Sampling Input: source sample X0 trained Model x - X0 for t T ... 1 do pred - Model(x, t, condX0) x - bridge_step(x, pred, t) end for return x8. I2SB 中最关键的两步中间态采样与监督目标构造这是理解 I2SB 的核心。8.1 第 3 步采样中间态X t X_tXt​训练中常写为X t ∼ q bridge ( X t ∣ X 0 , X 1 , t ) . X_t \sim q_{\text{bridge}}(X_t \mid X_0, X_1, t).Xt​∼qbridge​(Xt​∣X0​,X1​,t).这一过程通常不是模型学习出来的而是由 bridge 的数学形式事先规定好的。I2SB 的关键结论是在其选取的 tractable nonlinear diffusion bridge 类中中间态边缘可以解析写成高斯分布因此X t X_tXt​可直接按公式采样。(Proceedings of Machine Learning Research)从实现角度看这一步通常等价于mu_tweighted_mean(X0,X1,t)var_tbridge_variance(t)epsNormal(0,I).sample_like(X0)Xtmu_tsqrt(var_t)*eps因此桥的形式是预先设计和推导的具体某个中间态样本是从该分布中随机采样得到的模型本身不负责“学习如何生成训练中间态分布”。8.2 第 4 步构造监督目标 target在 I2SB 中监督目标通常同样由解析公式给出而不是由模型自行定义。以论文中的常见参数化为例目标项可写为target X t − X 0 σ t . \text{target}\frac{X_t-X_0}{\sigma_t}.targetσt​Xt​−X0​​.这意味着给定中间态X t X_tXt​、边界端点X 0 X_0X0​和噪声尺度σ t \sigma_tσt​后监督信号可直接计算出来。模型学习的是( X t , t , cond ) ↦ target . (X_t,t,\text{cond}) \mapsto \text{target}.(Xt​,t,cond)↦target.而不是( X 0 , X 1 , t ) ↦ q ( X t ∣ X 0 , X 1 ) . (X_0,X_1,t) \mapsto q(X_t|X_0,X_1).(X0​,X1​,t)↦q(Xt​∣X0​,X1​).换言之在 I2SB 框架中第 3 步是“按 bridge 公式出题”第 4 步是“按解析表达式给标准答案”神经网络则是“学习如何解这道题”。(Proceedings of Machine Learning Research)这两步的角色划分预先规定 / 理论推导得到的部分bridge schedule中间态分布q ( X t ∣ X 0 , X 1 ) q(X_t|X_0,X_1)q(Xt​∣X0​,X1​)target 的解析形式。(Proceedings of Machine Learning Research)模型学习的部分从( X t , t , cond ) (X_t,t,\text{cond})(Xt​,t,cond)预测上述 target从而掌握 bridge 上的局部更新规律。(Proceedings of Machine Learning Research)这也是 I2SB 能够大规模训练的重要原因它把“桥样本构造”和“监督信号构造”解析化了从而将训练问题化简为一个稳定的监督回归问题。(Proceedings of Machine Learning Research)9. 噪声在 DSB 中扮演的角色DSB 不是“没有噪声”而是“噪声不再只是唯一端点”。在标准 diffusion 中噪声往往是一个显式端点在 DSB 中噪声主要用于维持桥的随机性构造桥上的中间态保证生成结果具有多样性。(NeurIPS 会议论文集)因此对 DSB 更准确的表述是它不要求必须把样本一路加噪到纯高斯它更关心如何在两端之间定义一个带噪的随机桥接过程。10. 代表性工作与方法脉络10.1 Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling这是经典 DSB 工作核心贡献在于将 SB 问题与 score-based generative modeling 联系起来并通过近似 IPF 给出可训练的 DSB 求解方式。其第一轮 DSB 迭代可恢复出与标准 score-based diffusion 紧密相关的方法视角。(NeurIPS 会议论文集)10.2 I²SB: Image-to-Image Schrödinger Bridge这是条件图像生成语境下最具代表性的 DSB 方法。其关键创新在于利用一类 tractable nonlinear diffusion bridge 的解析边缘分布将 bridge learning 化简为 simulation-free 的扩散式训练从而高效支持图像恢复与图像到图像建模。(Proceedings of Machine Learning Research)10.3 Simulation-Free Schrödinger Bridges via Score and Flow Matching该工作进一步从统一视角解释了 Schrödinger bridge、score matching 与 flow matching 的关系说明 bridge learning 不仅可与 diffusion 视角相连也可与 flow-based training 形成更广义的统一框架。(Proceedings of Machine Learning Research)11. 总结扩散薛定谔桥是一类以双端分布约束为核心的随机生成建模方法。与标准 diffusion 相比它并未简单改变训练外壳而是改变了底层问题设定从“噪声—数据”的单端去噪框架扩展为“分布 A—分布 B”的桥接框架。经典 DSB 借助 IPF 近似求解双向桥过程I2SB 则通过解析中间态与解析监督目标将桥学习化为可扩展的 diffusion-style supervised regression而后续 simulation-free 工作又将 bridge、score 和 flow 进一步纳入统一理解。(NeurIPS 会议论文集)如果把它压缩成一句最核心的话可以写成DSB 的本质不是“从噪声恢复数据”而是“在两个端点分布之间学习一条随机但受约束的演化路径”I2SB 则是在图像到图像条件生成中将这一桥接过程做成了解析可采样、训练可扩展的扩散式模型。(NeurIPS 会议论文集)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2461042.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…