Denoising diffusion implicit models 阅读笔记

news2025/5/23 19:27:02

Denoising diffusion probabilistic models (DDPMs)从马尔科夫链中采样生成样本,需要迭代多次,速度较慢。Denoising diffusion implicit models (DDIMs)的提出是为了加速采样过程,减少迭代的次数,并且要求DDIM可以复用DDPM训练的网络。
加速采样的基本思路是,DDPM的生成过程需要从 [ T , ⋯   , 1 ] [T,\cdots,1] [T,,1]的序列逐步采样,DDIM则可以从 [ T , ⋯   , 1 ] [T,\cdots,1] [T,,1]的子序列采样来生成,通过跳步的方式减少采样的步数。

非马尔科夫的前向过程

DDPM中推理分布(inference distribution) q ( x 1 : T ∣ x 0 ) q(\mathbf x_{1:T}|\mathbf x_0) q(x1:Tx0)是固定的马尔科夫链。DDIM的作者考虑构造新的推理分布,该推理过程和DDPM优化相同的目标,但能产生新的生成过程。
在这里插入图片描述
考虑一个推理分布族Q,由实向量 σ ∈ R ≥ 0 T \sigma \in \mathbb{R}^T_{\ge 0} σR0T索引:
在这里插入图片描述
根据上面的定义有 q σ ( x t ∣ x 0 ) = N ( α t x 0 , ( 1 − α t ) I ) q_{\sigma}(\mathbf x_t | \mathbf x_0) = \mathcal{N}(\sqrt{\alpha_t}\mathbf x_0, (1-\alpha_t)I) qσ(xtx0)=N(αt x0,(1αt)I)
对应的前向过程也是高斯分布:
在这里插入图片描述
通过上面定义的推理过程,前向过程变成了非马尔科夫的,因为每一步都依赖 x 0 \mathbf x_0 x0
参数 σ \sigma σ控制前向过程的随机性,如果 σ → 0 \sigma \rightarrow 0 σ0,那么在已知 x 0 \mathbf x_0 x0和其中任一个 x t \mathbf x_t xt的情况下, x t − 1 \mathbf x_{t-1} xt1是固定的。

根据上面的推理过程,定义需要学习的生成过程为:
在这里插入图片描述
其中
在这里插入图片描述

根据上面的定义的推理过程和生成过程,优化的目标是
在这里插入图片描述
可以证明该优化目标和特定情况下DDPM的优化目标相同。

逆向生成过程的采样方法如下:
在这里插入图片描述
选择不同的 σ \sigma σ值会导致不同的生成过程,但它们使用相同的 ϵ θ \epsilon_{\theta} ϵθ模型。
如果 σ t = ( 1 − α t − 1 ) / ( 1 − α t ) ( 1 − α t ) / ( 1 − α t − 1 ) \sigma_t=\sqrt{(1-\alpha_{t-1})/(1-\alpha_{t})}\sqrt{(1-\alpha_{t})/(1-\alpha_{t-1})} σt=(1αt1)/(1αt) (1αt)/(1αt1) ,那么前向过程又变成了马尔科夫的,生成过程和DDPM一样。
如果 σ t = 0 \sigma_t=0 σt=0,那么随机噪声前的系数是0, x 0 \mathbf x_0 x0 x T \mathbf x_T xT之间的关系是固定的,这属于隐概率模型(implicit probabilistic model)。因此,作者把这种情况称为denoising diffusion implicit model (DDIM)。

加速

为了加速采样,作者考虑下面的推理过程:
在这里插入图片描述
其中 τ \tau τ是长度为S的 [ 1 , ⋯   , T ] [1,\cdots,T] [1,,T]的子序列, τ S = T \tau_S=T τS=T τ ‾ : = { 1 , … , T } \ τ \overline{\tau}:=\{1,\ldots,T \} \backslash \tau τ:={1,,T}\τ是除去子序列剩下的序号。
定义
在这里插入图片描述该推理分布对应的生成过程如下:
在这里插入图片描述
定义需要学习的概率为:
在这里插入图片描述
根据上面的定义的推理过程和生成过程,优化的目标是
在这里插入图片描述
可以证明该优化目标和特定情况下DDPM的优化目标相同。
因此,可以利用DDPM训练的网络,但是从子序列采样生成图像。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1027989.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浅谈xss

XSS 简介 XSS,全称Cross Site Scripting,即跨站脚本攻击,是最普遍的Web应用安全漏洞。这类漏洞能够使得攻击者嵌入恶意脚本代码到正常用户会访问到的页面中,当正常用户访问该页面时,则可导致嵌入的恶意脚本代码的执行,从而达到恶意攻击用户的目的。需要强调的是,XSS不仅…

vue项目嵌套安卓壳子打包apk

1.确保你的项目可以正常运行 2.vue.config.js publicPath 添加一个 publicPath:./, 3.需要下载一个HBuilder X编辑器 下载地址:HBuilderX-高效极客技巧 4.新建一个项目 选择5App 创建完成之后删除掉红框内的文件 只保留一个manifest.json 5.把自己要变成ap…

iTOP-RK3588开发板更新RKNN模型

RKNN 是 Rockchip NPU 平台(也就是开发板)使用的模型类型,是以.rknn 结尾的模型文件。 RKNN SDK 提 供 的 demo 程 序 中 默 认 自 带 了 RKNN 模 型 , 在 RKNN SDK 的 examples/rknn_yolov5_demo/model/RK3588/目录下,如下图所示&#xff…

远程拷贝Windows上的文件到Linux指定的文件夹

Linux系统电脑之间使用scp命令拷贝十分方便,但是对于windows和Linux之间的远程拷贝就没那么方便,特别是对于车载嵌入式的开发人员,很多软件或者license没有对应的Linux版本,需要远程刷写软件来回切换十分不方便,今天介…

C++ Primer Plus第八章笔记

内联函数 编译过程的目标是可执行程序(由一组机器语言指令组成)。运行程序时,操作系统将指令载入到计算机内存中,则每条指令都有其特定的内存地址。 内联函数的编译代码与其它程序代码内联,编译器就使用相应的函数代…

亚运之城:杭州的搞钱之王 首富都得靠边站

作者:积溪 简评:这届亚运会,杭州成了显眼包,也卷成了蚊香,这背后杭州的搞钱实力,究竟有多牛?#杭州亚运会 #马云 #阿里 手机可以“打”公交 10分钟就能到 还只要1块钱? 这届亚运…

数据分析方法-对比分析和用户画像(文末送书)

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

App Store上线规范及流程

上线一个应用到 App Store 需要遵循苹果的规范和流程,以确保应用的质量和安全性。以下是上线应用到 App Store 的一般规范和流程,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 1. 开发和…

基于微信小程序的学生签到系统设计与实现(源码+lw+部署文档+讲解等)

前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 👇🏻…

ETHERCAT转ETHERCAT协议网关

JM-ECAT-ECAT 产品介绍 JM-ECAT-ECAT是自主研发的一款ETHERCAT从站功能的通讯网关。该产品主要功能是将2个ETHERCAT网络连接起来。 本网关连接到ETHERCAT总线中做为从站使用。 产品参数 技术参数 l 网关做为ETHERCAT网络的从站,可以连接倍福、欧姆龙、基恩士等厂…

带你深入学习Redis主从复制,学习心跳包、主从结构,全量复制、部分复制等

目录 1、单点问题 2、理解主从复制 3、配置Redis主从结构 3.1、在一个云服务器上如何启动多个Redis服务器: 3.2、配置主从复制 3.3、查看是否配置成功 3.4、补充:redis服务器启动和停止的命令,需要搭配使用 3.5、查看主从结构信息 3…

源码级揭秘Linux内核启动流程

哈喽,我是子牙,一个很卷的硬核男人。深入研究计算机底层、Windows内核、Linux内核、Hotspot源码……聚焦做那些大家想学没地方学的课程 今天这篇文章给大家分享一下Linux内核的启动流程。为什么要分享这个话题呢?所谓万丈高楼平地起&#xf…

可口可乐用新的“Y3000”口味拥抱有争议的人工智能图像生成器

可口可乐公司已经迈出了一大步,用它的释放;排放;发布据报道,可口可乐Y3000零糖“限量版”饮料是与人工智能共同创造的。它未来的名字让人想起3000年的味道(还有977年),但它的营销依赖于人工智能从2023年产生的图像——…

Vue之路由及Node.js环境搭建(一起探索新事物)

目录 ​编辑 前言 一、Vue之路由 1.路由简介 1.1 什么是路由 1.2 什么是SPA 1.3 SPA的实现思路 1.4 使用路由的优势 2. 案例演示 2.1 导入所需的js文件 2.2 编写案例代码(模拟页面跳转) 二、Vue之node.js 1. node.js简介 1.1 什么是node.j…

玫瑰代码||逐字打印字体||中秋快乐

关注微信公众号「ClassmateJie」 更多惊喜等待你的发掘 直接看实现效果 电脑端 手机端 使用场景 发给女神告白~ 提供一些文案 “自从遇见你,我的世界变得不一样了。每一天都因为你而变得特别。我想告诉你,我喜欢你,不仅仅是因为你的美丽&am…

使用 PyTorch 的计算机视觉简介 (2/6)

一、说明 在本单元中,我们从最简单的图像分类方法开始——一个全连接的神经网络,也称为感知器。我们将回顾一下 PyTorch 中定义神经网络的方式,以及训练算法的工作原理。 二、数据加载的实践 首先,我们使用 pytorchcv 助手来加载…

民安智库(第三方市场调查公司)开展景区游客满意度调查

为什么要开展景区游客满意度调查 景区的经营管理是一个动态的过程,需要不定期的地进行调查,让管理者了解景区管理的不足之处,并不断地改善和提高管理水平,以保证经营目标的顺利完成。 景区旅游要想真正地成为可持续发展的经济产…

人类的生成式与机器的生成式

生成式是指一种基于模型的方法,通过给定的条件或输入,生成与之相符合的输出。在自然语言处理领域中,生成式模型通常用于生成文本、文章、对话等自然语言序列。 生成式模型的训练主要涉及两个步骤:学习和生成。在学习阶段&#xff…

【每日一题】2603. 收集树中金币

文章目录 Tag题目来源题目解读解题思路方法一:拓扑排序 写在最后 Tag 【拓扑排序】【树】 题目来源 2603. 收集树中金币 题目解读 有一个有 n 个节点的无相无根图,节点编号从 0 到 n-1。有一个表示图中节点间连接关系的数组 edges,长度为 …

目前最流行的无人机摄影测量软件有哪些?各有什么特点?

文章目录 1. Pix4Dmapper2. PhotoScan3. ContextCapture4. 天工GodWork5. Trimble Inpho6. IMAGINE Photogrammetry7. 大疆智图 推荐阅读:《无人机航空摄影测量精品教程》 包括:无人机航测外业作业流程(像控点布设、航线规划、仿地飞行、航拍…