DDPM推导笔记

news2026/4/9 10:32:24

各位佬看文章之前，可以先去看看这个视频，并给这位up主点赞投币，这位佬讲解的太好了：大白话AI

1.前置知识的学习

1.1 正态分布特性

（1）正态分布的概率密度函数
$\over \sqrt{2 \pi } \sigma} e^{-{{(x-\mu)^2} \over {2 \sigma^2}}} ,记为N(\mu, \sigma^2)$

当 $\mu = 0, \sigma^2=1$ 时，则记为标准正态分布，记为 $N (0, 1)$ , 又称为高斯分布。

（2）正态分布的基本性质
$N(\mu_1, \sigma_1^2) + N(\mu_2, \sigma_2^2) = N(\mu_1+\mu2, \sigma_1^2+\sigma_2^2) \\ a*N(\mu, \sigma) = N(a*\mu, (a*\sigma)^2)$

1.2 贝叶斯定理

$A, B$ 是两个随机事件， $P (A)$ 表示 $事件 A$ 发生的概率， $P (B ∣ A)$ 表示A事件发生的情况下B事件发生的概率，则贝叶斯定理如下：
$\over P(B)}$

2. 前向过程（加噪）

在这里插入图片描述

如图所示，前向过程则是一个加载过程，在每个时间步，都从正态分布中随机采样一个和图片等大的噪声（也可以理解为噪声图片），则加噪过程：
$x_1 = \sqrt{\beta_1} * \epsilon_1 + \sqrt{1-\beta_1} * x_0$
其中 $x_0$ 表示原始图片， $\epsilon_1$ 表示随机噪声， $\beta_1$ 表示扩散速度， $T$ 表示扩散的次数，则可以一次推导：
$x_1 = \sqrt{\beta_1} * \epsilon_1 + \sqrt{1-\beta_1} * x_0 \\ x_2 = \sqrt{\beta_2} * \epsilon_2 + \sqrt{1-\beta_2} * x_1 \\ x_3 = \sqrt{\beta_3} * \epsilon_3 + \sqrt{1-\beta_3} * x_2 \\ ······ \\ x_T = \sqrt{\beta_T} * \epsilon_T + \sqrt{1-\beta_T} * x_{T-1} \\ 前后关系就可以记为： \\ x_t = \sqrt{\beta_t} * \epsilon_t + \sqrt{1-\beta_t} * x_{t-1} \\$
为简化后续运算，令 $\alpha_t = 1 - \beta_t$ , 则有：
$x_t = \sqrt{1- \alpha_t} * \epsilon_t + \sqrt{\alpha_t} * x_{t-1}$

思考：如何能更快的得到 $x_T$ ？因为如果加噪1000步，岂不是要计算1000次上述的运算！好的，下面介绍怎样依赖正态分布的可加性来简化运算，从而推导出 $x_0$ 到 $x_t$ 的关系：
$\\ x_t = \sqrt{1- \alpha_t} * \epsilon_t + \sqrt{\alpha_t} * x_{t-1} \\ x_{t-1} = \sqrt{1- \alpha_{t-1}} * \epsilon_{t-1} + \sqrt{\alpha_{t-1}} * x_{t-2} \\ 把x_{t-1}代入到x_t中可以推导出： \\ x_t = \sqrt{1- \alpha_t} * \epsilon_t + \sqrt{\alpha_t} * (\sqrt{1- \alpha_{t-1}} * \epsilon_{t-1} + \sqrt{\alpha_{t-1}} * x_{t-2}) \\ = \sqrt{a_t(1-a_{t-1})} * \epsilon_{t-1} + \sqrt{1-a_t} * \epsilon_t + \sqrt{a_t a_{t-1}} * x_{t-2} \\ 其中：\epsilon_{t-1} 和 \epsilon_{t} 是两个随机噪声，且两者是两个独立的随机变量。\\ 打个比喻：我们有一个骰子掷两次分别得到\epsilon_{t-1} 和 \epsilon_{t}，完全可以等效\\ 于我们有两个骰子掷一次。即：一个骰子掷两次的概率分布等同于两个骰子掷一次的概率分布，所以,\\ 如果我们知道两个骰子掷一次的概率分布，然后进行一次采样即可。 \\$

$由正态分布的基本性质可知：\\ \epsilon_t和\epsilon_{t-1}服从N(0, 1),即：\epsilon_t \sim N(0,1), \epsilon_{t-1} \sim N(0,1) \\ 可以推导出： \sqrt{1-a_t} * \epsilon_t \sim N(0, 1- \alpha_t) \\ \sqrt{a_t(1-a_{t-1})} * \epsilon_{t-1} \sim N(0, a_t-a_t*a_{t-1}))$

$\\ \sqrt{a_t(1-a_{t-1})} * \epsilon_{t-1} + \sqrt{1-a_t} * \epsilon_t \sim N(0, 1-a_t*a_{t-1})$

$进而推导出：\\ x_t = \sqrt{1-a_t*a_{t-1}} * \epsilon + \sqrt{a_t*a_{t-1}}*x_{t-2}, 其中：\epsilon \sim N(0, 1-a_t*a_{t-1})$

$这里就可到了x_t和x_{t-2}之间的关系，然后依靠上面的方法就可以一次推导出x_t到x_0的关系(数学归纳法证明)，具体如下： \\ x_t = \sqrt{1 - a_ta_{t-1}a_{t-2}...a_1} * \epsilon + \sqrt{a_ta_{t-1}a_{t-2}...a1} * x_0 \\ 其中，\epsilon \sim N(0, 1 - a_ta_{t-1}a_{t-2}...a_1)$

$\bar{a}_t = a_ta_{t-1}a_{t-2}...a_1 \\ 则： x_t = \sqrt{1 - \bar{a}_t} * \epsilon + \sqrt{\bar{a}_t} x_0$

至此，前向过程就记录完成了，我们得到 $x_0到x_t$ 的关系，并且可以只通过一次采样就能得到。

3. 反向过程（去噪）

在这里插入图片描述
去噪过程就是从 $x_T$ 一步步反推回 $x_0$ 。

3.1 反向原理推导

由贝叶斯定理：
$\over P(B)}$
我们可以令：
$由于x_t到x_{t-1}是一个随机过程，则令： \\ P(x_{t-1}|x_t): 表示在给定x_t的情况下，x_{t-1}的概率。 \\ 套用贝叶斯定理得： \\ P(x_{t-1} | x_t) = { P(x_t | x_{t-1}) * P(x_{t-1}) \over P(x_t)} \\ 其中，P(x_t)和P(x_{t-1})分别表示x_t和t_{t-1}的概率,也就是从x_0原图得到它们的概率。$
$\\ P(x_{t-1} | x_t,x_0) = { P(x_t | x_{t-1},x_0) * P(x_{t-1} | x_0) \over P(x_t | x_0)} \\$
$\\ P(x_t|x_{t-1}, x_0) 给定x_{t-1}到x_t的概率。 \\ 前向过程中可知： \\ x_t = \sqrt{1- \alpha_t} * \epsilon_t + \sqrt{\alpha_t} * x_{t-1} \\ x_t = \sqrt{1 - \bar{a}_t} * \epsilon + \sqrt{\bar{a}_t} x_0 \\ \epsilon_t和\epsilon分别服从N(0, 1) \\ 从而推导出： \\ x_t \sim N(\sqrt{a_t} x_{t-1}, 1-a_t) \\ 或： \\ x_t \sim N(\sqrt{\bar{a}_t} x_0, 1-\bar{a}_t) \\ 以及： \\ x_{t-1} \sim N(\sqrt{\bar{a}_{t-1}} x_0, 1-\bar{a}_{t-1}) \\$

然后就可以把他们分别写成概率密度形式：

然后将概率密度函数带入到贝叶斯定理中，就可以得到：
在这里插入图片描述
化简成高斯分布得：

$P(x_{t-1}|x_t, x_0)$ =

由此推导出：
在这里插入图片描述
$我们的目的是通过x_t求出x_{t-1},然后由x_{t-1}推导出x_{t-2}···直到求出x_0，\\ 但现在的式子中出现了x_0,怎么办？ \\ 没关系，我们之前由x_t和x_0的关系： \\ x_t = \sqrt{1 - \bar{a}_t} * \epsilon + \sqrt{\bar{a}_t} x_0 \\$
变换可以得到：

将它带入到 $P(x_{t-1}|x_t, x_0)$ 的概率密度函数中可得：
在这里插入图片描述
它表示的是：对于任意 $x_t$ 的图像都可以用 $x_0$ 加载而来；而只要知道了从 $x_0$ 到 $x_t$ 加入的噪声 $\epsilon$ ，就能得到它前一时刻 $x_{t-1}$ 的概率分布，即： $P(x_{t-1}|x_t, x_0)$ 。