【机器学习分支】重要性采样（Importance sampling）学习笔记

news2026/5/19 23:31:39

重要性采样（importance sampling）是一种用于估计概率密度函数期望值的常用蒙特卡罗积分方法。其基本思想是利用一个已知的概率密度函数来生成样本，从而近似计算另一个概率密度函数的期望值。

想从复杂概率分布中采样的一个主要原因是能够使用式（11.1）计算期望。重要采样（importance sampling）的方法提供了直接近似期望的框架，但是它本身并没有提供从概率分布 $p (z)$ 中采样的方法，也就是我们无法从式（11.1）直接过渡到(11.2)
$\mathbb{E}[f] = \int f(z)p(z)dz \tag{11.1}$ $\hat{f} = \frac{1}{L}\sum\limits_{l=1}^L f(z^{(l)}) \tag{11.2}$ 公式（11.2）给出的期望的有限和近似依赖于能够从概率分布 $p (z)$ 中采样。然而，假设直接从 $p (z)$ 中采样无法完成，但是对于任意给定的 $z$ 值，我们可以很容易地计算 $p (z)$ 。一种简单的计算期望的方法是将 $z$ 空间离散化为均匀的格点，将被积函数使用求和的方式计算，形式为
$\mathbb{E}[f] \simeq \sum\limits_{l=1}^Lp(z^{(l)})f(z^{(l)})$ 这种方法的一个明显的问题是求和式中的项的数量随着 $z$ 的维度指数增长。此外，正如我们已经注意到的那样，我们感兴趣的概率分布通常将它们的大部分质量限制在 $z$ 空间的一个很小的区域，因此均匀地采样非常低效，因为在高维的问题中，只有非常小的一部分样本会对求和式产生巨大的贡献。我们希望从 $p (z)$ 的值较大的区域中采样，或理想情况下，从 $p (z) f (z)$ 的值较大的区域中采样。

与拒绝采样的情形相同，重要采样基于的是对提议分布 $q (z)$ 的使用，我们很容易从提议分布中采样，如下图所示：

重要采样解决的是计算函数 $f (z)$ 关于分布 $p (z)$ 的期望的问题，其中，从 $p (z)$ 中直接采样比较困难。相反，样本 ${z^{(l)}}$ 从一个简单的概率分布 $q (z)$ 中抽取，求和式中的对应项的权值为 $p(z^{(l)})/q(z^{(l)})$ ，这样就可以还原到从 $p (z)$ 中取样。

上述过程中的式子，我们可以通过 $q (z)$ 中的样本 ${z^{(l)}\}$ 的有限和的形式来表示期望
$\mathbb{E} = \int f(z)p(z)dz \ = \int f(z)\frac{p(z)}{q(z)}q(z)dz \ \simeq \frac{1}{L}\sum\limits_{l=1}^L\frac{p(z^{(l)})}{q(z^{(l)})}f(z^{(l)})$ 其中 $r_l = p(z^{(l)}) / q(z^{(l)})$ 被称为重要性权重（importance weights），修正了由于从错误的概率分布 $q (z)$ 中采样引入的偏差。

对于上述过程，举个栗子：

我们的待计算函数为 $h(x)=e^{-2|x-5|}$ ，待采样分布为 $p(x)=\dfrac{1}{10} ,x \sim\mathcal{u}(0,10)$ ,从 $h (x)$ 的图像中明显可以看出，在中间部分的 $h (x) p (x)$ 对期望贡献较大，而两边几乎可以忽略不计，所以此时使用均匀分布采样并不合理。

基于此，我们引入了新的采样分布函数 $q(x)=\dfrac{1}{\sqrt{2\pi}}e^{-\frac{(x-5)^2}{2}}$

在这里插入图片描述
这使得在 $h (x)$ 较大的位置取值更多，需要的采样点更少。

而更常见的情形是，概率分布 $p$ 的计算结果没有标准化，也就是 $\tilde{p}(z) / Z_p$ 中我们只知道 $\tilde{p}(z)$ ，其中 $\tilde{p}(z)$ 可以很容易地由 $z$ 计算出来（可能没有函数表达式），而 $Z_p$ 未知（ $\tilde{p}(z)$ 无法积分算）。类似的，我们可能希望使用重要采样分布 $\tilde{q}(z) / Z_q$ 中的 $\tilde{q}(z)$ ，它具有相同的性质。于是我们得到:
$\mathbb{E}[f] = \int f(z)p(z)dz \ = \frac{Z_q}{Z_p}\int f(z)\frac{\tilde{p}(z)}{\tilde{q}(z)}q(z)dz \ \simeq \frac{Z_q}{Z_p}\frac{1}{L}\sum\limits_{l=1}^L\tilde{r}_lf(z^{(l)})$
其中 $\tilde{r}_l = \tilde{p}(z^{(l)}) / \tilde{q}(z^{(l)})$ 。

我们还可以使用同样的样本集合来计算比值 $Z_p / Z_q$ ，结果为：
$\frac{Z_p}{Z_q} = \frac{1}{Z_q}\int\tilde{p}(z)dz = \int\frac{\tilde{p}(z)}{\tilde{q}(z)}q(z)dz \ \simeq \frac{1}{L}\sum\limits_{l=1}^L\tilde{r}_l$

第一个等式中 $Z_p$ 用 $\int\tilde{p}(z)dz$ 等价计算了出来，第二个等式中 $Z_q$ 用 $\tilde{q}(z) / Z_q$ 替代

因此：
$\mathbb{E}[f] \simeq \sum\limits_{l=1}^Lw_lf(z^{(l)})$ 其中: $w_l = \frac{\tilde{r}_l}{\sum_m\tilde{r}_m} = \frac{\tilde{p}(z^{(l)})/q(z^{(l)})}{\sum_m\tilde{p}(z^{(l)})/q(z^{(l)})}$
这也就是我们最终要找样本点计算的式子
最终，我们达到了“利用一个已知的概率密度函数 $q (z)$ 来生成样本，从而近似计算另一个概率密度函数的期望值 $\mathbb{E}[f] = \int f(z)p(z)dz$ ”这一目的。