高斯过程回归【详细数学推导】

机器学习笔记

第一章机器学习简介
第二章感知机
第三章支持向量机
第四章朴素贝叶斯分类器
第五章 Logistic回归
第六章线性回归和岭回归
第七章多层感知机与反向传播【Python实例】
第八章主成分分析【PCA降维】
第九章隐马尔可夫模型
第十章奇异值分解
第十一章熵、交叉熵、KL散度
第十二章什么是范数【向量范数、矩阵范数】
第十三章熵、交叉熵、KL散度
第十四章极大似然估计、最大后验估计、贝叶斯估计
第十五章高斯过程回归模型

文章目录

机器学习笔记
高斯过程回归
一、一元高斯分布
二、多元高斯分布
三、高斯过程
四、高斯过程回归
五、核函数
六、超参数的优化
参考资料

高斯过程回归

高斯过程回归（Gaussian Process Regression，简称GPR）是一种非参数的回归方法，它基于高斯过程（Gaussian Process）理论。在机器学习中，高斯过程是一种强大的工具，用于建模连续型的函数关系，特别适用于小样本的情况。在进行预测时，高斯过程回归会计算给定输入下目标函数的后验分布，这个后验分布也是一个高斯分布，它的均值给出了预测值，方差则表示了预测的不确定性。由于高斯过程回归是基于贝叶斯推断的，因此它能够提供预测结果的不确定性估计，这对于许多应用场景非常有用，尤其是在决策制定中需要考虑风险的情况下。

高斯过程回归的优点包括：

能够灵活地处理非线性关系，适用于各种类型的函数逼近。
能够提供预测的不确定性，有利于进行决策制定。
不需要事先指定复杂的模型结构，减轻了参数调节的负担。

一、一元高斯分布

若随机变量 $x$ 服从一个位置参数为 $\mu$ 、尺度参数为 $\sigma$ 的概率分布, 且其概率密度函数为 :
$f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right)$
则这个随机变量就称为正态随机变量, 正态随机变量服从的分布就称为正态分布(也称为高斯分布), 记作 $\sim N\left(\mu, \sigma^2\right)$ 。当 $\mu=0, \sigma=1$ 时, 正态分布就成为标准正态分布:
$f(x)=\frac{1}{\sqrt{2 \pi}} \exp\left(-\frac{x^2}{2}\right)$

一元高斯分布有很多很好的性质，比如两个高斯分布的线性组合仍然是高斯分布，而多个一元高斯分布的联合分布则可以导出多元高斯分布。

二、多元高斯分布

若一个多维随机向量具有同一元高斯分布类似的概率规律时, 称此随机向量遵从多元高斯(multivariate Gaussian)分布。多元高斯分布可以从一元高斯分布导出，对于 $D$ 维的随机变量量 $\mathbf{x}=\left(x_1, \ldots, x_D\right)^T$ , 多元高斯分布形式为:
$N(\mathbf{x} \mid \mu, \boldsymbol{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\mu)^T \mathbf{\Sigma}^{-1}(\mathbf{x}-\mu)\right\}$
式中的 $\mu$ 是 $D$ 维的均值向量, $\Sigma$ 是 $\times D$ 的协方差矩阵 (covariance matrix), $|\Sigma|$ 是 $\Sigma$ 的行列式。多元正态分布也有很好的性质, 例如, 多元正态分布的边缘分布仍为正态分布，它经任何线性变换得到的随机向量仍为多维正态分布，它的线性组合为一元正态分布。在后面高斯过程回归的推导中会用到多元高斯分布的条件概率分布，所以这里我们给出多元高斯分布条件概率分布的定理：

定理（多元高斯分布条件概率分布）

设 $\boldsymbol{y} \sim \mathcal{N}(\boldsymbol{\mu}, \Sigma)$ , 将 $\boldsymbol{y}, \boldsymbol{\mu}$ 和 $\Sigma$ 分割成如下形式：
$\begin{aligned} & \boldsymbol{y}=\left[\begin{array}{l} \boldsymbol{y}_1 \\ \boldsymbol{y}_2 \end{array}\right]\begin{array}{l} n_1 \\ n_2 \end{array} \quad \quad \boldsymbol{\mu}=\left[\begin{array}{l} \boldsymbol{\mu}_1 \\ \boldsymbol{\mu}_2 \end{array}\right]\begin{array}{l} n_1 \\ n_2 \end{array} \\ & \Sigma=\left[\begin{array}{cc} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{array}\right] \begin{array}{l} n_1 \\ n_2 \end{array} \end{aligned}$
其中 $\boldsymbol{y}, \boldsymbol{\mu} \in \mathbb{R}^n$ 且 $\Sigma \in \mathbb{R}^{n \times n}$ 。那么我们可以知道 $\boldsymbol{y}_1 \sim \mathcal{N}\left(\boldsymbol{\mu}_1, \Sigma_{11}\right)$ ，进一步可以推出条件概率分布：
$\boldsymbol{y}_2 \mid \boldsymbol{y}_1 \sim \mathcal{N}\left(\boldsymbol{\mu}_2+\Sigma_{21} \Sigma_{11}^{-1}\left(\boldsymbol{y}_1-\boldsymbol{\mu}_1\right), \Sigma_{22}-\Sigma_{21} \Sigma_{11}^{-1} \Sigma_{12}\right)$

三、高斯过程

高斯过程是概率论和数理统计中随机过程的一种，是一系列服从高斯分布的随机变量在一指数集内的组合。高斯过程中任意个随机变量的线性组合都服从多元高斯分布，每个有限维分布都是联合高斯分布。对一个任意集合 $\mathcal{X}$ , 一个定义在 $\mathcal{X}$ 上的高斯过程 $(\mathrm{GP})$ 是一个随机变量的集合 $\in \mathcal{X})$ ，使得对任意的 $\in \mathbb{N}$ 且 $x_1, \ldots, x_n \in \mathcal{X}$ ，满足 $\left(f\left(x_1\right), \ldots, f\left(x_n\right)\right)$ 是一个多元高斯分布。由于高斯分布由均值向量和协方差矩阵指定，因此,高斯过程也完全由均值函数 $\mu (x)$ 和协方差函数（或者叫核函数） $k (x, x^{'})$ 共同唯一确定，常表示为如下形式：
$f(\mathbf{x}) \sim \mathcal{G} \mathcal{P}\left(\mu(\mathbf{x}), k\left(\mathbf{x}, \mathbf{x}^{\prime}\right)\right)$
其中均值函数反映了函数在输入点x处的均值：
$\mu(x) = \mathbb{E}(f(\mathbf{x}))$
核函数 $k (x, x^{'})$ 刻画了函数值在 $x$ 和 $x^{'}$ 处的关系：
$k\left(\mathbf{x}, \mathbf{x}^{\prime}\right)=\mathbb{E}\left[(f(\mathbf{x})-\mu(\mathbf{x})\left(f\left(\mathbf{x}^{\prime}\right)-\mu\left(\mathbf{x}^{\prime}\right)\right)\right]$
高斯过程的性质与其核函数有密切联系，不同的核函数可以赋予高斯过程不同的平滑性、各向同性、周期性和平稳性。核函数的选择要求满足Mercer定理(Mercer’s theorem)，即核函数在样本空间内的任意格拉姆矩阵为半正定矩阵。

四、高斯过程回归

我们知道在机器学习中，监督学习可以分为回归问题和分类问题。分类问题的输出是离散的类标签，而回归是关于连续量的预测。而本文，我们主要是讨论多任务高斯过程在回归问题中的应用，所以这里首先介绍一下高斯过程回归的基本原理。

高斯过程回归模型通常可以从权重空间视角和函数空间视角去推导，这里我们从函数空间的视角进行介绍。通过刚才对高斯过程的介绍，我们可以发现回归模型能用高斯过程来表示，比如贝叶斯线性回归模型 $f(\boldsymbol{x})=\boldsymbol{\phi}(\boldsymbol{x})^{\mathrm{T}} \boldsymbol{w}$ ,其中 $\boldsymbol{w} \sim \mathcal{N}\left(\mathbf{0}, \Sigma_p\right)$ 、 $\boldsymbol{\phi}(\boldsymbol{x})$ 表示经过某种变换后的输入，于是可以得到：
$\begin{aligned} \mu(\boldsymbol{x}) & =\mathbb{E}[f(\boldsymbol{x})]=\boldsymbol{\phi}(\boldsymbol{x})^{\mathrm{T}} \mathbb{E}[\boldsymbol{w}]=0 \\ k\left(\boldsymbol{x}, \boldsymbol{x}^{\prime}\right) & =\mathbb{E}\left[f(\boldsymbol{x}) f\left(\boldsymbol{x}^{\prime}\right)\right]=\boldsymbol{\phi}(\boldsymbol{x})^{\mathrm{T}} \mathbb{E}\left[\boldsymbol{w} \boldsymbol{w}^{\mathrm{T}}\right] \boldsymbol{\phi}\left(\boldsymbol{x}^{\prime}\right)=\boldsymbol{\phi}(\boldsymbol{x})^{\mathrm{T}} \Sigma_p \boldsymbol{\phi}\left(\boldsymbol{x}^{\prime}\right) \end{aligned}$
所以 $f(\boldsymbol{x}) \sim \mathcal{G P}\left(0, \boldsymbol{\phi}(\boldsymbol{x})^{\mathrm{T}} \Sigma_p \boldsymbol{\phi}\left(\boldsymbol{x}^{\prime}\right)\right)$ 。

进一步，我们可以考虑一个一般的带噪声的的回归模型：
$y=f(\boldsymbol{x})+\varepsilon \qquad f(\boldsymbol{x}) \sim \mathcal{G} \mathcal{P}(\mu, k)$ 其中， $f(\boldsymbol{x})$ 是参数待定的高斯过程，噪声满足 $\varepsilon \sim \mathcal{N}\left(0, \sigma_n^2\right)$ .现在我们假设数据集 $\mathcal{D}=\left\{\left(\boldsymbol{x}_i, y_i\right) \mid i=1, \ldots, n\right\}$ ，其中 $\boldsymbol{x}_i \in \mathbb{R}^d, y_i \in \mathbb{R}$ 。可以表示为矩阵形式 $\mathcal{D}=(\mathrm{X},\boldsymbol{y})$ ，其中 $\mathrm{X}\in \mathbb{R}^{n\times d},\boldsymbol{y}\in\mathbb{R}^n$ 。当观测点满足回归模型时，按照高斯过程的定义,这些点的联合分布 $\left[f\left(\boldsymbol{x}_1\right), \ldots, f\left(\boldsymbol{x}_n\right)\right]$ 需要满足一个多维高斯分布, 即:
$\left[f\left(\boldsymbol{x}_1\right), f\left(\boldsymbol{x}_2\right), \ldots, f\left(\boldsymbol{x}_n\right)\right]^{\mathrm{T}} \sim \mathcal{N}(\boldsymbol{\mu}, K)$ 这里 $\boldsymbol{\mu}=\left[\mu\left(\boldsymbol{x}_1\right), \ldots, \mu\left(\boldsymbol{x}_n\right)\right]^{\mathrm{T}}$ 是均值向量, $K$ 是 $\times n$ 的矩阵, 其中第 $(i, j)$ 个元素是 $K_{i j}=k\left(\boldsymbol{x}_i, \boldsymbol{x}_j\right)$ .

为了预测在新的点处的函数值 $f_*=f(Z)$ , 其中 $Z=\left[\boldsymbol{z}_1, \cdots, \boldsymbol{z}_m\right]^{\mathrm{T}}$ , 根据高斯分布的性质, 训练点和预测点的联合分布仍然为高斯分布，即:
$\left[\begin{array}{c} \boldsymbol{y} \\ f_* \end{array}\right] \sim \mathcal{N}\left(\left[\begin{array}{c} \boldsymbol{\mu}(X) \\ \boldsymbol{\mu}(Z) \end{array}\right],\left[\begin{array}{cc} K(X, X)+\sigma_n^2 \mathbf{I} & K(Z, X)^{\mathrm{T}} \\ K(Z, X) & K(Z, Z) \end{array}\right]\right)$
其中:

$\boldsymbol{\mu}(X)=\boldsymbol{\mu}, \boldsymbol{\mu}(Z)=\left[\mu\left(\boldsymbol{z}_1\right), \ldots, \mu\left(\boldsymbol{z}_m\right)\right]^{\mathrm{T}}, K(X, X)=K$ ;
$K (Z, X)$ 是个 $\times n$ 的矩阵, 其中第 $(i, j)$ 个元素 $X)]_{i j}=k\left(\boldsymbol{z}_i, \boldsymbol{x}_j\right)$ ；
$K (Z, Z)$ 是个 $\times m$ 的矩阵, 其中第 $(i, j)$ 个元素 $Z)]_{i j}=k\left(\boldsymbol{z}_i, \boldsymbol{z}_j\right)$ .
最后利用高斯分布的条件分布性质, 我们可以得到关于预测值的条件概率分布:
$p\left(f_* \mid X, \boldsymbol{y}, Z\right)=\mathcal{N}(\hat{\boldsymbol{\mu}}, \hat{\Sigma})$ 其中：
$\begin{aligned} &\hat{\boldsymbol{\mu}}=K(Z, X)\left(K(X, X)+\sigma_n^2 \mathbf{I}\right)^{-1}(\boldsymbol{y}-\boldsymbol{\mu}(X))+\boldsymbol{\mu}(Z) \\ &\hat{\Sigma}=K(Z, Z)-K(Z, X)\left(K(X, X)+\sigma_n^2 \mathbf{I}\right)^{-1} K(Z, X)^{T} \end{aligned}$ 如果将预测值的噪声考虑进来，条件概率分布如下：
$p\left(\boldsymbol{y}_* \mid X, \boldsymbol{y}, Z\right)=\mathcal{N}\left(\hat{\boldsymbol{\mu}}, \hat{\Sigma}+\sigma_n^2 \mathbf{I}\right)$ 在实际应用中，我们通常将令均值函数 $\mu(x) = 0$ (本文如无特殊说明，也都采用值为0的均值函数)，那么预测的均值函数和预测的协方差函数的结果可以更为简单的表示为:
$\begin{aligned} \hat{\boldsymbol{\mu}} &= K(Z,X)(K(X,X) + \sigma^2_n \mathbf{I})^{-1}\boldsymbol{y}\\ \hat{\Sigma} &= K(Z,Z) - K(Z,X)(K(X,X) + \sigma^2_n \mathbf{I})^{-1}K(Z,X)^{\mathrm{T}} \end{aligned}$
至此，我们便完成了从函数空间视角出发的高斯过程回归模型的推导。观察上式，我们可以发现一些有趣的性质：

首先来看均值 $\hat{\boldsymbol{\mu}}$ ，由于测试数据集一共有m个点，因而 $\hat{\boldsymbol{\mu}}$ 理应是 $\times 1$ ，而对应等式右边的 $\boldsymbol{y}$ 应当是 n×1 ，而 $\hat{\boldsymbol{\mu}}$ 等式右边除了 $\boldsymbol{y}$ 的其他部分理应为 m×n的，所以预测均值是观测点 $\boldsymbol{y}$ 的线性组合。
再来看协方差 $\hat{\boldsymbol{\Sigma}}$ ，等式右边的第一部分是我们的先验的协方差，减掉的后面的那一项实际上表示了观测到数据后函数分布不确定性的减少，如果第二项非常接近于 0，说明观测数据后我们的不确定性几乎不变，反之如果第二项非常大，则说明不确定性降低了很多。

如果我们再换一种视角来看均值 $\hat{\boldsymbol{\mu}}$ ，将 $\left(K(X, X)+\sigma_n^2 \mathbf{I}\right)^{-1} \boldsymbol{y}$ 看做整体 $\alpha$ , 则
$\hat{\boldsymbol{\mu}}_i=\sum_{j=1}^n \alpha_j k\left(\boldsymbol{x}_j, \boldsymbol{z}_i\right)$ 最终结果表示，预测值 $\hat{\boldsymbol{\mu}}_i$ 可以看做是预测点和观测点之间核函数的线性组合，这个方程表明高斯过程回归等价于使用核函数 $k (x, x^{'})$ 将输入投影到特征空间的线性回归模型。为了得到预测点的值，每个输出 $\hat{\boldsymbol{\mu}_i}$ 被加权为其相关的输入 $x_j$ 与被预测点 $z_i$ 的相似度，这是由核函数诱导的相似度度量。这个加权和表明，高斯过程回归模型取决于选定的核函数和到目前为止观察到的数据，而不需要指定具体的模型函数形式，这就是为什么高斯过程回归是一种非参数方法。

用高斯过程对回归问题进行建模有很多优势。首先，GP利用有限的训练数据点计算核函数，建模复杂度与 $x$ 的维数无关，使得我们能够处理更高维的输入数据，理论上无限维都行。其次，刚刚提到，高斯过程是一种非参数的方法，对回归问题进行建模时，不需要指定模型的形式，这意味着高斯过程可以对任意形式的函数进行建模拟合。

五、核函数

我们看到 $k (x, x^{'})$ 对高斯过程回归模型至关重要，可以说核函数是一个高斯过程的核心，核函数决定了一个高斯过程的性质。

定义（核函数）

在 $\mathcal{X}$ 上的半正定核函数 $k$ ，需要满足如下条件 $\mathcal{X} \times \mathcal{X} \mapsto \mathbb{R}$ , $\forall n \in \mathbb{N}, \forall x_1, \ldots, x_n \in \mathcal{X}$ , s.t.矩阵 $C$ 都是半正定的, 其中 $C_{i j}=k\left(x_i, x_j\right)$

比如，当 $\mathcal{X}=\mathbb{R}^d, k(\boldsymbol{x}, \boldsymbol{x'})=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{x'}$ 时，可以得到 $C=\boldsymbol{x}\boldsymbol{x^T}$ . 设 $\boldsymbol{a} \in \mathbb{R}^n$ , 则 $\boldsymbol{a}^{\mathrm{T}} \boldsymbol{C} \boldsymbol{a}=\boldsymbol{a}^{\mathrm{T}} \boldsymbol{x} \boldsymbol{x}^{\mathrm{T}} \boldsymbol{a}=\left(\boldsymbol{a} \boldsymbol{x}^{\mathrm{T}}\right)^2 \geq 0$ . 所以，二元函数 $k(\boldsymbol{x}, \boldsymbol{y})=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{y}$ 是一个半正定的核函数。

在高斯过程中，核函数用于生成一个协方差矩阵来衡量任意两个点之间的“距离”，一个合理的假设通常是两点之间的相关性随两点之间的距离而衰减。不同的核函数有不同的衡量方法，得到的高斯过程的性质也不一样。最常用的一个核函数为高斯核函数，也称为平方指数函数(Squared Exponential,SE)，其基本形式如下：
$j)=s_f^2 exp(-\frac{\Vert x_i-x_j\Vert_2 ^2}{2l^2})$ 其中 $s_f$ 和 $l$ 是高斯核的超参数， $s_f$ 是信号方差(signal variance)，控制输出的振幅。 $l$ 是长度尺度(length scale)，控制输入方向的振荡频率，下图展示了两个超参数对高斯过程函数性质的影响。

截屏2024-04-22 18.06.05 左边图展示了，当 $s_f$ 固定时，长度尺度 $l$ 对高斯过程的影响，可以看到不同的 $l$ 导致高斯过程曲线在水平轴上具有不同的振荡频率。右边图展示了，当 $l$ 固定时,信号方差 $s_f$ 对高斯过程的影响，可以看到不同的 $s_f$ 导致高斯过程曲线在纵轴上有不同的振幅。

高斯核函数提供了一个富有表现力的核来建模平滑、平稳的函数，超参数 $l$ 和 $s_f$ 可以控制点与点之间的先验相关性，从而控制高斯过程的预测性能。

六、超参数的优化

通过前面的介绍，我们已经知道了如何使用给定的核和零均值函数构造高斯过程回归模型。只要从数据中学习所有待定超参数 $\boldsymbol{\theta}=\{\theta_1,\theta_2,\cdots\}$ ，就可以得到预测均值和方差。

由于高斯过程回归模型中超参数的后验分布不易获得，因此在实际应用中不经常使用超参数的全贝叶斯推理，通常的做法是通过最大化边际似然来获得超参数的点估计。所以可以采用最大似然估计(Maximum Likelihood Estimation，MLE)，通过梯度下降等优化方法进行优化。

高斯过程模型的似然函数可以表示为:
$p(\boldsymbol{y} \mid X, \theta)=\int p(\boldsymbol{y} \mid \boldsymbol{f}, X, \theta) p(\boldsymbol{f} \mid X, \theta) \mathrm{d} \boldsymbol{f}$
在高斯过程回归模型中，先验和似然函数都是高斯分布：
$\begin{aligned} p(f \mid X, \boldsymbol{\theta}) & =\mathcal{N}(\mathbf{0}, K), \\ p(\boldsymbol{y} \mid f, X, \boldsymbol{\theta}) & =\mathcal{N}\left(f, \sigma_n^2 \mathrm{I}\right) . \end{aligned}$ 于是我们知道边缘似然函数也是服从高斯分布：
$p(\boldsymbol{y} \mid X, \boldsymbol{\theta})=\int \mathcal{N}\left(f, \sigma_n^2 \mathrm{I}\right) \mathcal{N}(\mathbf{0}, K) \mathrm{d} f=\mathcal{N}\left(\mathbf{0}, K+\sigma_n^2 \mathrm{I}\right)=\mathcal{N}\left(\mathbf{0}, \Sigma_\theta\right),$
其中 $\Sigma_\theta=K_\theta+\sigma_n^2 \mathbf{I}=K+\sigma_n^2 \mathbf{I}$ ， $\boldsymbol{\theta}$ 包含于协方差函数 $K$ 中。而更常用的是负对数边缘似然函数(Negative Log Marginal Likelihood,NLML)：
$\mathcal{L}(\boldsymbol{\theta})=-\log p(\boldsymbol{y} \mid X, \boldsymbol{\theta})=\frac{1}{2} \boldsymbol{y}^{\mathrm{T}} \Sigma_\theta^{-1} \boldsymbol{y}+\frac{1}{2} \log \vert \Sigma_\theta \vert +\frac{n}{2} \log 2 \pi$
得到负对数似然函数 $\mathcal{L}$ 后，剩下的就是优化问题了，可以对上式关于 $\theta$ 求偏导：
$\frac{\partial \mathcal{L}}{\partial \theta_i}=\frac{1}{2} \operatorname{tr}\left(\Sigma_\theta^{-1} \frac{\partial \Sigma_\theta}{\partial \theta_i}\right)-\frac{1}{2} \boldsymbol{y}^{\mathrm{T}} \Sigma_\theta^{-1} \frac{\partial \Sigma_\theta}{\partial \theta_i} \Sigma_\theta^{-1} \boldsymbol{y}.$

于是，就可以利用梯度下降之类的方法求得超参数 $\boldsymbol{\theta}$ 。不过值得注意的是，MLE方法有一些局限性。对于许多核函数，边际似然函数相对于超参数不是凸的，因此优化算法可能收敛到局部最优点，而不是全局最优点。因此，通过最大似然估计优化超参数，得到的GPR性能取决于优化算法的初始值，所以如何对模型参数的初始化十分关键。