机器学习笔记之贝叶斯线性回归(一)线性回归背景介绍

news2025/7/13 13:59:40

机器学习笔记之贝叶斯线性回归——线性回归背景介绍

  • 引言
    • 回顾:线性回归
      • 场景构建
      • 从概率密度函数认识最小二乘法
      • 回顾:最小二乘估计
      • 回顾:线性回归与正则化
      • 关于线性回归的简单小结
    • 贝叶斯线性回归
      • 贝叶斯方法
      • 贝叶斯方法在线性回归中的任务
      • 贝叶斯线性回归推断任务介绍

引言

本节开始,介绍贝叶斯线性回归(Bayesian Linear Regression)。

回顾:线性回归

场景构建

给定数据集合 D a t a = { ( x ( i ) , y ( i ) ) } i = 1 N \mathcal Data = \left\{\left(x^{(i)},y^{(i)}\right)\right\}_{i=1}^N Data={(x(i),y(i))}i=1N,其中样本 x ( i ) ( 1 = 1 , 2 , ⋯   , N ) x^{(i)}(1 = 1,2,\cdots,N) x(i)(1=1,2,,N) p p p维随机变量,对应的标签信息 y ( i ) y^{(i)} y(i)是一维随机变量:
x ( i ) ∈ R p , y ( i ) ∈ R i = 1 , 2 , ⋯   , N X = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( N ) ) T = ( x 1 ( 1 ) , x 2 ( 1 ) , ⋯   , x p ( 1 ) x 1 ( 2 ) , x 2 ( 2 ) , ⋯   , x p ( 2 ) ⋮ x 1 ( N ) , x 2 ( N ) , ⋯   , x p ( N ) ) N × p Y = ( y ( 1 ) y ( 2 ) ⋮ y N × 1 ( N ) ) \begin{aligned} x^{(i)} & \in \mathbb R^p,y^{(i)} \in \mathbb R \quad i=1,2,\cdots,N \\ \mathcal X & = \left(x^{(1)},x^{(2)},\cdots,x^{(N)}\right)^T = \begin{pmatrix} x_1^{(1)},x_2^{(1)},\cdots,x_p^{(1)} \\ x_1^{(2)},x_2^{(2)},\cdots,x_p^{(2)} \\ \vdots \\ x_1^{(N)},x_2^{(N)},\cdots,x_p^{(N)} \\ \end{pmatrix}_{N \times p} \quad \mathcal Y = \begin{pmatrix} y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(N)}_{N \times 1} \end{pmatrix} \end{aligned} x(i)XRp,y(i)Ri=1,2,,N=(x(1),x(2),,x(N))T=x1(1),x2(1),,xp(1)x1(2),x2(2),,xp(2)x1(N),x2(N),,xp(N)N×pY=y(1)y(2)yN×1(N)

从概率密度函数认识最小二乘法

给定数据集合 D a t a Data Data以及相应拟合直线表示如下:
线性回归——示例
其中直线的表达式为:
这里‘偏置信息’ b b b忽略掉, x i ( i = 1 , 2 , ⋯   , p ) x_i(i=1,2,\cdots,p) xi(i=1,2,,p)表示样本的第 i i i维特征信息。
f ( X ) = W T X = X T W = ∑ i = 1 p w i ⋅ x i f(\mathcal X) = \mathcal W^T \mathcal X = \mathcal X^T \mathcal W = \sum_{i=1}^p w_i \cdot x_i f(X)=WTX=XTW=i=1pwixi
从概率密度函数角度观察,标签分布可看作是 f ( x ) f(x) f(x)的基础加上均值为0的高斯分布噪声
X \mathcal X X是包含 p p p维特征的随机变量集合; Y \mathcal Y Y是一个一维随机变量; ϵ \epsilon ϵ表示一维高斯分布(它和 Y \mathcal Y Y的维数相同)。
Y = f ( X ) + ϵ X ∈ R p , Y ∈ R , ϵ ∼ N ( 0 , σ 2 ) \mathcal Y = f(\mathcal X) + \epsilon \quad \mathcal X \in \mathbb R^p,\mathcal Y \in \mathbb R,\epsilon \sim \mathcal N(0,\sigma^2) Y=f(X)+ϵXRp,YR,ϵN(0,σ2)

回顾:最小二乘估计

关于线性回归问题求解模型参数 W \mathcal W W时,使用的是最小二乘估计(Least Square Estimation,LSE):
L ( W ) = ∑ i = 1 N ∣ ∣ W T x ( i ) − y ( i ) ∣ ∣ 2 \mathcal L(\mathcal W) = \sum_{i=1}^N ||\mathcal W^Tx^{(i)} - y^{(i)}||^2 L(W)=i=1NWTx(i)y(i)2
并且通过最小二乘估计,求解模型参数 W \mathcal W W矩阵形式表达
矩阵表达的弊端

  • X T X \mathcal X^T\mathcal X XTX是一个 p × p p \times p p×p的对称矩阵,它至少是半正定矩阵,但不一定是正定矩阵。从而导致 ( X T X ) − 1 (\mathcal X^T\mathcal X)^{-1} (XTX)1可能是不可求的。
  • 由于 X \mathcal X X是样本集合,如果 X \mathcal X X的样本量较大,会导致 X T X \mathcal X^T\mathcal X XTX的计算代价极高。
    W = ( X T X ) − 1 X T Y \mathcal W = (\mathcal X^T \mathcal X)^{-1} \mathcal X^T \mathcal Y W=(XTX)1XTY

从概率密度函数角度观察,最小二乘估计本质是极大似然估计(Maximum Likelihood Estimate,MLE)
给定样本 x ( i ) x^{(i)} x(i)对应标签 y ( i ) y^{(i)} y(i)之间的关联关系,可以得到 P ( y ( i ) ∣ x ( i ) ) \mathcal P(y^{(i)} \mid x^{(i)}) P(y(i)x(i))的概率分布:
这里先将 μ \mu μ写在上面。
y ( i ) = W T x ( i ) + ϵ ϵ ∼ N ( μ , σ 2 ) → P ( y ( i ) ∣ x ( i ) ; W ) ∼ N ( W T x ( i ) + μ , σ 2 ) \begin{aligned} & y^{(i)} = \mathcal W^Tx^{(i)} + \epsilon \quad \epsilon \sim \mathcal N(\mu,\sigma^2) \\ & \to \mathcal P(y^{(i)} \mid x^{(i)};\mathcal W) \sim \mathcal N(\mathcal W^Tx^{(i)} + \mu,\sigma^2) \end{aligned} y(i)=WTx(i)+ϵϵN(μ,σ2)P(y(i)x(i);W)N(WTx(i)+μ,σ2)
似然函数 L ( W ) \mathcal L(\mathcal W) L(W)进行构建:
将高斯分布的概率密度函数带入~
L ( W ) = log ⁡ ∏ i = 1 N P ( y ( i ) ∣ x ( i ) ; W ) = ∑ i = 1 N log ⁡ [ 1 σ 2 π exp ⁡ ( − [ y ( i ) − ( W T x ( i ) + μ ) ] 2 2 σ 2 ) ] \begin{aligned} \mathcal L(\mathcal W) & = \log \prod_{i=1}^N \mathcal P(y^{(i)} \mid x^{(i)};\mathcal W) \\ & = \sum_{i=1}^N \log \left[\frac{1}{\sigma \sqrt{2 \pi}} \exp \left(- \frac{[y^{(i)} - \left(\mathcal W^Tx^{(i)} + \mu\right)]^2}{2\sigma^2}\right)\right] \end{aligned} L(W)=logi=1NP(y(i)x(i);W)=i=1Nlog[σ2π 1exp(2σ2[y(i)(WTx(i)+μ)]2)]
使用极大似然估计对最优模型参数 W ^ \hat {\mathcal W} W^进行计算:
其中 ∑ i = 1 N log ⁡ 1 σ 2 π , 1 2 σ 2 \sum_{i=1}^N \log \frac{1}{\sigma \sqrt{2\pi}},\frac{1}{2\sigma^2} i=1Nlogσ2π 1,2σ21均是与 x ( i ) x^{(i)} x(i)无关的量,视作常数。
W ^ = arg ⁡ max ⁡ W L ( W ) = arg ⁡ max ⁡ W { ∑ i = 1 N log ⁡ [ 1 σ 2 π exp ⁡ ( − [ y ( i ) − ( W T x ( i ) + μ ) ] 2 2 σ 2 ) ] } = arg ⁡ max ⁡ W { ∑ i = 1 N log ⁡ 1 σ 2 π − ∑ i = 1 N [ y ( i ) − ( W T x ( i ) + μ ) ] 2 2 σ 2 } ∝ arg ⁡ min ⁡ W ∑ i = 1 N [ y ( i ) − ( W T x ( i ) + μ ) ] 2 μ = 0 → arg ⁡ min ⁡ W ∑ i = 1 N [ y ( i ) − W T x ( i ) ] 2 \begin{aligned} \hat {\mathcal W} & = \mathop{\arg\max}\limits_{\mathcal W} \mathcal L(\mathcal W) \\ & = \mathop{\arg\max}\limits_{\mathcal W}\left\{\sum_{i=1}^N \log \left[\frac{1}{\sigma \sqrt{2 \pi}} \exp \left(- \frac{[y^{(i)} - \left(\mathcal W^Tx^{(i)} + \mu\right)]^2}{2\sigma^2}\right)\right]\right\} \\ & = \mathop{\arg\max}\limits_{\mathcal W}\left\{\sum_{i=1}^N \log \frac{1}{\sigma\sqrt{2\pi}} - \sum_{i=1}^N\frac{[y^{(i)} - \left(\mathcal W^T x^{(i)} + \mu\right)]^2}{2\sigma^2}\right\} \\ & \propto \mathop{\arg\min}\limits_{\mathcal W}\sum_{i=1}^N \left[y^{(i)} - \left(\mathcal W^Tx^{(i)} + \mu\right)\right]^2 \\ \quad & \mu = 0 \to \mathop{\arg\min}\limits_{\mathcal W} \sum_ {i=1}^N \left[y^{(i)} - \mathcal W^Tx^{(i)}\right]^2 \end{aligned} W^=WargmaxL(W)=Wargmax{i=1Nlog[σ2π 1exp(2σ2[y(i)(WTx(i)+μ)]2)]}=Wargmax{i=1Nlogσ2π 1i=1N2σ2[y(i)(WTx(i)+μ)]2}Wargmini=1N[y(i)(WTx(i)+μ)]2μ=0Wargmini=1N[y(i)WTx(i)]2
这里令 μ = 0 \mu=0 μ=0关于极大似然估计关于 W ^ \hat{\mathcal W} W^的求解公式与最小二乘估计相同

回顾:线性回归与正则化

针对最小二乘估计的过拟合 问题,引入正则化(Regularized)。常见的正则化有两种方式:

  • Lasso回归( L 1 \mathcal L_1 L1正则化)
    arg ⁡ min ⁡ W [ ∑ i = 1 N ∣ ∣ W T x ( i ) − y ( i ) ∣ ∣ 2 + λ ∣ ∣ W ∣ ∣ 1 ] ∣ ∣ W ∣ ∣ 1 = ∣ w 1 ∣ + ⋯ + ∣ w p ∣ \mathop{\arg\min}\limits_{\mathcal W} \left[\sum_{i=1}^N ||\mathcal W^Tx^{(i)} - y^{(i)}||^2 + \lambda ||\mathcal W||_1\right] \quad ||\mathcal W||_1 = |w_1| + \cdots + |w_p| Wargmin[i=1NWTx(i)y(i)2+λW1]W1=w1++wp
  • 岭回归(Ridge回归; L 2 \mathcal L_2 L2正则化)
    arg ⁡ min ⁡ W [ ∑ i = 1 N ∣ ∣ W T x ( i ) − y ( i ) ∣ ∣ 2 + λ ∣ ∣ W ∣ ∣ 2 2 ] ∣ ∣ W ∣ ∣ 2 2 = ∣ w 1 ∣ 2 + ⋅ + ∣ w p ∣ 2 \mathop{\arg\min}\limits_{\mathcal W} \left[\sum_{i=1}^N ||\mathcal W^Tx^{(i)} - y^{(i)}||^2 + \lambda ||\mathcal W||_2^2\right] \quad ||\mathcal W||_2^2 = \sqrt{|w_1|^2 + \cdot + |w_p|^2} Wargmin[i=1NWTx(i)y(i)2+λW22]W22=w12++wp2

从概率密度函数角度考虑基于正则化的最小二乘估计,可将其视作关于 W \mathcal W W最大后验概率估计(Maximum a Posteriori Probability,MAP):
W ^ M A P = arg ⁡ max ⁡ W P ( Y ∣ W ) ⋅ P ( W ) P ( Y ) ∝ arg ⁡ max ⁡ W P ( Y ∣ W ) ⋅ P ( W ) \begin{aligned} \hat {\mathcal W}_{MAP} & = \mathop{\arg\max}\limits_{\mathcal W} \frac{\mathcal P(\mathcal Y \mid \mathcal W) \cdot \mathcal P(\mathcal W)}{\mathcal P(\mathcal Y)} \\ & \propto \mathop{\arg\max}\limits_{\mathcal W} P(\mathcal Y \mid \mathcal W) \cdot \mathcal P(\mathcal W) \\ \end{aligned} W^MAP=WargmaxP(Y)P(YW)P(W)WargmaxP(YW)P(W)
由于样本间独立同分布,因而有:
增加一个 log ⁡ \log log函数,不影响最值的取值结果。
W ^ M A P ∝ arg ⁡ max ⁡ W [ log ⁡ ∏ i = 1 N P ( y ( i ) ∣ W ) ⋅ P ( W ) ] \hat {\mathcal W}_{MAP} \propto \mathop{\arg\max}\limits_{\mathcal W} \left[\log \prod_{i=1}^N \mathcal P(y^{(i)} \mid \mathcal W) \cdot \mathcal P(\mathcal W)\right] W^MAPWargmax[logi=1NP(y(i)W)P(W)]
先验分布 P ( W ) ∼ N ( μ 0 , σ 0 2 ) \mathcal P(\mathcal W) \sim \mathcal N(\mu_0 ,\sigma_0^2) P(W)N(μ0,σ02),将 P ( Y ∣ W ) ∼ N ( W T X , σ 2 ) \mathcal P(\mathcal Y \mid \mathcal W) \sim \mathcal N(\mathcal W^T \mathcal X,\sigma^2) P(YW)N(WTX,σ2)一同代入上式,有:
这里既包含对 W \mathcal W W分布的假设。也包含关于高斯噪声 Y ∣ W \mathcal Y \mid \mathcal W YW的假设。该假设完全写法是 Y ∣ X ; W \mathcal Y \mid \mathcal X;\mathcal W YX;W只不过这里 X \mathcal X X是已知量,省略掉了。
W ^ M A P = arg ⁡ min ⁡ W ∑ i = 1 N [ ( y ( i ) − W T x ( i ) ) 2 + σ 2 σ 0 2 ( W − μ 0 ) 2 ] \hat {\mathcal W}_{MAP} = \mathop{\arg\min}\limits_{\mathcal W} \sum_{i=1}^N \left[\left(y^{(i)} - \mathcal W^T x^{(i)}\right)^2 + \frac{\sigma^2}{\sigma_0^2}(\mathcal W - \mu_0)^2\right] W^MAP=Wargmini=1N[(y(i)WTx(i))2+σ02σ2(Wμ0)2]
λ = σ 2 σ 0 2 , μ 0 = 0 \lambda = \frac{\sigma^2}{\sigma_0^2},\mu_0 = 0 λ=σ02σ2,μ0=0时,上式将转化为:
W ^ M A P = arg ⁡ min ⁡ W ∑ i = 1 N [ ( y ( i ) − W T x ( i ) ) 2 + λ ∣ ∣ W ∣ ∣ 2 2 ] \hat {\mathcal W}_{MAP} = \mathop{\arg\min}\limits_{\mathcal W} \sum_{i=1}^N \left[\left(y^{(i)} - \mathcal W^T x^{(i)}\right)^2 + \lambda ||\mathcal W||_2^2\right] W^MAP=Wargmini=1N[(y(i)WTx(i))2+λW22]
上述是关于岭回归 W \mathcal W W分布的假设,如果是Lasso回归,将 W \mathcal W W分布假设为拉普拉斯分布(Laplace Distribution)。

关于线性回归的简单小结

无论是最小二乘估计还是包含了正则化的最小二乘估计,其本质均是频率派的求解方式,将模型参数 W \mathcal W W视作未知常量,通过极大似然估计最大后验概率估计等方式对 W \mathcal W W进行优化,从而使目标函数达到最值
本质上是‘优化问题’。

并且这种估计方式是点估计(Point Estimation),由于概率模型能够源源不断的生成样本,理论上无法完美地、精确描述概率模型的分布信息,只能通过有限的样本集合来估计模型参数
也就是说,使用‘统计得到的样本集合’估计总体参数。
假设某概率模型服从高斯分布 N ( μ , σ 2 ) \mathcal N(\mu,\sigma^2) N(μ,σ2),这里的 μ , σ 2 \mu,\sigma^2 μ,σ2描述概率分布的参数,是固定的。但是该概率模型可以生成无穷无尽的样本,假设某样本集合 X = { x ( 1 ) , x ( 2 ) , ⋯   , x ( N ) } \mathcal X =\left\{x^{(1)},x^{(2)},\cdots ,x^{(N)}\right\} X={x(1),x(2),,x(N)}是生成出的一部分样本,我们通过统计的方式得到该样本的均值、方差 μ X , σ X 2 \mu_{\mathcal X},\sigma_{\mathcal X}^2 μX,σX2去估计真正的参数 μ , σ 2 \mu,\sigma^2 μ,σ2

贝叶斯线性回归

区别于频率派点估计方式,贝叶斯派使用的是贝叶斯估计(Bayesian Estimation)。此时的参数 W \mathcal W W不再是一个未知的常量,而是一个随机变量

对于 W \mathcal W W的估计过程中,需要通过给定数据估计出 W \mathcal W W后验概率分布 P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData)

贝叶斯方法

在变分推断——基本介绍中介绍过贝叶斯学派角度认识问题。其核心是:不同于频率派将模型参数 W \mathcal W W看作未知的常量,而是将 W \mathcal W W看作随机变量,从而求解 W \mathcal W W的后验概率分布 P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData),基于该分布,对新样本进行预测:
令新样本为 x ^ \hat x x^,预测任务可表示为 P ( x ^ ∣ D a t a ) \mathcal P(\hat x \mid Data) P(x^Data).
P ( x ^ ∣ D a t a ) = ∫ W ∣ D a t a P ( x ^ , W ∣ D a t a ) d W = ∫ W ∣ D a t a P ( W ∣ X ) ⋅ P ( x ^ ∣ W ) d W = E W ∣ D a t a [ P ( x ^ ∣ W ) ] \begin{aligned} \mathcal P(\hat x \mid Data) & = \int_{\mathcal W \mid Data} \mathcal P(\hat x,\mathcal W \mid Data) d \mathcal W \\ & = \int_{\mathcal W \mid Data} \mathcal P(\mathcal W \mid \mathcal X) \cdot \mathcal P(\hat x \mid \mathcal W) d\mathcal W \\ & = \mathbb E_{\mathcal W \mid Data} \left[\mathcal P(\hat x \mid \mathcal W)\right] \end{aligned} P(x^Data)=WDataP(x^,WData)dW=WDataP(WX)P(x^W)dW=EWData[P(x^W)]

贝叶斯方法在线性回归中的任务

针对上述贝叶斯方法的描述,在线性回归中的任务包含以下两个:

  • 推断任务(Inference):通过贝叶斯定理,求解后验概率 P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData)
  • 预测任务(Prediction):基于后验概率 P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData),对新样本的后验 P ( x ^ ∣ D a t a ) \mathcal P(\hat x \mid Data) P(x^Data)进行估计。

贝叶斯线性回归推断任务介绍

后验概率 P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData)表示如下:
数据集合 D a t a Data Data包含样本集合 X \mathcal X X和对应标签集合 Y \mathcal Y Y.
P ( W ∣ D a t a ) = P ( W ∣ X , Y ) = P ( W , Y ∣ X ) P ( Y ∣ X ) = P ( Y ∣ W , X ) ⋅ P ( W ) ∫ W P ( Y ∣ W , X ) ⋅ P ( W ) d W \begin{aligned} \mathcal P(\mathcal W \mid Data) & = \mathcal P(\mathcal W \mid \mathcal X,\mathcal Y) \\ & = \frac{\mathcal P(\mathcal W,\mathcal Y \mid \mathcal X)}{\mathcal P(\mathcal Y \mid \mathcal X)} \\ & = \frac{\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W)}{\int_{\mathcal W} \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) d\mathcal W} \end{aligned} P(WData)=P(WX,Y)=P(YX)P(W,YX)=WP(YW,X)P(W)dWP(YW,X)P(W)
其中 P ( Y ∣ W , X ) \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) P(YW,X)似然(Likelihood), P ( W ) \mathcal P(\mathcal W) P(W)先验分布(Piror Distribution)。
P ( W ) \mathcal P(\mathcal W) P(W)实际上是 P ( W ∣ X ) \mathcal P(\mathcal W \mid \mathcal X) P(WX),由于 X \mathcal X X不对 W \mathcal W W产生影响,这里省略。这个先验分布是推断之前给定的某一种分布。

由于样本之间独立同分布,因而似然 P ( Y ∣ W , X ) \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) P(YW,X)可表示为如下形式:
根据上面介绍的线性回归模型,样本 x ( i ) x^{(i)} x(i)和对应标签 y ( i ) y^{(i)} y(i)之间是‘包含均值为0高斯噪声的线性关系’
P ( y ( i ) ∣ W , x ( i ) ) ∼ N ( W T x ( i ) , σ 2 ) P ( Y ∣ W , X ) = ∏ i = 1 N P ( y ( i ) ∣ W , x ( i ) ) = ∏ i = 1 N N ( W T x ( i ) , σ 2 ) \mathcal P(y^{(i)} \mid \mathcal W,x^{(i)}) \sim \mathcal N(\mathcal W^Tx^{(i)},\sigma^2)\\ \begin{aligned}\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) & = \prod_{i=1}^N \mathcal P(y^{(i)} \mid \mathcal W,x^{(i)}) \\ & = \prod_{i=1}^N \mathcal N(\mathcal W^T x^{(i)},\sigma^2) \end{aligned} P(y(i)W,x(i))N(WTx(i),σ2)P(YW,X)=i=1NP(y(i)W,x(i))=i=1NN(WTx(i),σ2)
关于先验分布 P ( W ) \mathcal P(\mathcal W) P(W),我们同样假设它是一个 均值为0的高斯分布
其中 Σ p r i o r \Sigma_{prior} Σprior表示先验高斯分布的‘协方差矩阵’,由于 W \mathcal W W X \mathcal X X维度相同,因而 [ Σ p r i o r ] p × p [\Sigma_{prior}]_{p \times p} [Σprior]p×p.
P ( W ) ∼ N ( 0 , Σ p i r o r ) \mathcal P(\mathcal W) \sim \mathcal N(0,\Sigma_{piror}) P(W)N(0,Σpiror)
至此,关于 W \mathcal W W后验概率分布 P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData)可表示为:
贝叶斯定理的分母部分称作’证据‘(Evidence),它可看作关于数据集合 D a t a Data Data的一个常量(因为数据集合是已知的),和参数 W \mathcal W W无关。
P ( W ∣ D a t a ) = P ( Y ∣ W , X ) ⋅ P ( W ) ∫ W P ( Y ∣ W , X ) ⋅ P ( W ) d W ∝ P ( Y ∣ W , X ) ⋅ P ( W ) \begin{aligned} \mathcal P(\mathcal W \mid Data) & = \frac{\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W)}{\int_{\mathcal W} \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) d\mathcal W} \\ & \propto \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) \end{aligned} P(WData)=WP(YW,X)P(W)dWP(YW,X)P(W)P(YW,X)P(W)
观察,由于似然 P ( Y ∣ W , X ) \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) P(YW,X)服从高斯分布,并且先验分布同样假设为高斯分布,因而后验分布 P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData)同样服从高斯分布

  • 这里用到了指数族分布的共轭性质,具体描述是:似然 P ( Y ∣ W , X ) \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) P(YW,X)存在一个共轭的先验分布 P ( W ) \mathcal P(\mathcal W) P(W),对应效果是:后验分布 P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData)与先验分布形成相同的分布形式。
  • 并且高斯分布是一个包含’自共轭性质‘的指数族分布。即高斯分布是高斯分布自身的’共轭分布‘。

定义后验的高斯分布为 N ( μ W , Σ W ) \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) N(μW,ΣW),具体表示如下:
N ( μ W , Σ W ) ∝ [ ∏ i = 1 N N ( y ( i ) ∣ W T x ( i ) , σ 2 ) ] ⋅ N ( 0 , Σ p i r o r ) \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \propto \left[\prod_{i=1}^N \mathcal N(y^{(i)} \mid \mathcal W^Tx^{(i)},\sigma^2)\right] \cdot \mathcal N(0,\Sigma_{piror}) N(μW,ΣW)[i=1NN(y(i)WTx(i),σ2)]N(0,Σpiror)

下一节将介绍 μ W , Σ W \mu_{\mathcal W},\Sigma_{\mathcal W} μW,ΣW求解过程

相关参考:
机器学习-贝叶斯线性回归(1)-背景介绍
机器学习-贝叶斯线性回归(2)-推导介绍

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/38367.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

kubernetes深入理解Pod对象之调度篇

目录 一、Pod调度流程 二、 容器资源限制 2.1 内存和CPU限制 三、 NodeSelector 四、NodeAffinity 4.1 基本概念 4.2 Pod 示例 4.2.1使用首选的节点亲和性调度 Pod 4.2.2依据强制的节点亲和性调度 Pod 五、Taints与Tolerations 5.1 基本概念 5.2Taints与Toleratio…

Ceph块存储

目录 一、环境准备 二、什么是块存储 三、创建块共享 1、查看存储池 2、创建镜像、查看镜像 3、镜像扩容、缩容 四、客户端通过KRBD访问共享镜像 1、客户端安装 2、客户端配置 3、客户端获取镜像 4、客户端写入数据 五、快照 1、查看、创建快照 2、还原快照 六、…

shell实战案例:系统性能监控脚本

一 简介 下面我们来编写一个检测系统环境、监控系统性能的脚本,并判断各项数据指标是否符合预设的阈值。如果数据有异常,就报警,如何报警,视情况而定。注意脚本中的很多预设值只是假设值,在实际生产环境中还需要根据业…

cubeIDE开发, 物联网应用之stm32的蓝牙通信设计

一、蓝牙通信技术 蓝牙技术是一种点对点点对面的网络构架,他可以在限制的范围内以很快的速度传输网络数据,在物联网应用中,支持网状网络的物联网短距离无线通信。目前它还被广泛用于智能可穿戴设备、智能门锁、智能医疗设备、智能照明设备、智…

十二、CANdelaStudio入门-Security

本专栏将由浅入深的展开诊断实际开发与测试的数据库编辑,包含大量实际开发过程中的步骤、使用技巧与少量对Autosar标准的解读。希望能对大家有所帮助,与大家共同成长,早日成为一名车载诊断、通信全栈工程师。 本文介绍CANdelaStudio的Security概念,欢迎各位朋友订阅、评论,…

【GamePlay】Unity手机屏幕UI适配问题

前言 关于UI不同分辨率适配问题和摄像机视口的注意事项 画布大小与锚点 首先要了解这两个东西 对于画布大小,主要理解match的含义,滑到Width时,表示以宽度为基准,Width不变,Height根据真机分辨率改变。 比如自己设…

pytest测试框架搭建

文章目录一、pytest是什么?二、pytest的特点三、pytest下载安装四、pytest的配置五、pytest约束规则六、编写脚本七、pytest的运行方式1、主函数模式2、命令行模式3、通过读取pytest ini配置文件运行 (最主要运用的方式)一、pytest是什么&…

【Unity】按Text文本内容自适应背景大小

按照文本内容自动调节背景框大小是十分方便的,本文章记录一下通过无代码方式实现该效果。(版本Unity2018.4) 目录 一、Text组件操作 二、Image组件操作 三、效果展示 一、Text组件操作 创建新的Text组件,然后进行下面操作&am…

LabVIEW避免在使用functional global时内存中有多个大数组的拷贝

LabVIEW避免在使用functional global时内存中有多个大数组的拷贝 有一个非常大的数组,但想保证在内存中只有一个拷贝.知道可以用移位寄存器,并用"ReplaceArray Subset" VI 保证只有一个拷贝。然而,想使之成为一个functionalglobal。因为,不能…

Ceph对象存储

目录 一、环境准备 二、什么是对象存储 三、部署对象存储服务 1、启动RGW服务 2、更改RGW服务端口 3、客户端测试 一、环境准备 Ceph集群搭建参照:Ceph集群部署_桂安俊kylinOS的博客-CSDN博客 以下Ceph存储实验环境均基于上述Ceph集群环境搭建。 二、什么是…

理解中国经济的五层思维-中国视角下的宏观经济

理解中国经济的五层思维 – 潘登同学的宏观经济学笔记 文章目录理解中国经济的五层思维 -- 潘登同学的宏观经济学笔记思想的力量理解中国经济的五层思维第一层思维:唯GDP论第二层思维:天真的市场派(新-新古典综合世界观对中国经济的影响)第三层思维&…

20221126给Chrome浏览器安装扩展程序——猫抓

20221126给Chrome浏览器安装扩展程序——猫抓 2022/11/26 21:43 百度:chrome 猫爪 https://www.onlinedown.net/soft/1232149.htm 猫抓 1.0.17 最新版 设置→ 01 百度搜索 QQ图片20221126214334.png 02 猫抓 QQ图片20221126214407.png 03 设置.png 04扩展程序.…

HTTP介绍报文格式构造

HTTP 一. 简单介绍一下: 二. 学习报文格式: 三. HTTP中的细节介绍 四, 如何构造一个HTTP请求 一. 简单介绍一下: 是应用层的典型协议客户端发送一个HTTP请求, 服务器返回一个HTTP响应(一问(请求)一答(响应)的)HTTP是文本格式的协议二. 学习报文格式: 1)先简单看一看HTTP的…

有监督学习神经网络的回归拟合——基于红外光谱的汽油辛烷值预测(Matlab代码实现)

👨‍🎓个人主页:研学社的博客 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜…

2022年11月26日NaiveBayes

参考 ​ 朴素贝叶斯算法的核心思想是通过考虑特征概率来预测分类,即对于给出的待分类样本,求解在此样本出现的条件下各个类别出现的概率,哪个最大,就认为此待分类样本属于哪个类别。 ​ 我的理解是已知结果然后计算所有导致结果原…

[BJDCTF2020]EzPHP

前言 这个题目考的php知识真的比较多,也比较经典。由于我php基础不是很好,总会遇到一些问题。花时间弄懂这道题后也能更加巩固所学的知识。所以这道题还是有必要记录下来的。 题目 打开题目,在前端代码注释有这么一行编码。 受固化思想的影…

[CVPR2022] Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition

Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition 要点: 1、半监督动作识别,使用伪标记分配未标记数据,然后在训练中用作附加的监督 2、最近研究:伪标签通过在标记数据上训练模型获取,然后使用来…

重装系统电脑黑屏开不了机如何处理

​电脑使用时间久了难免就出现各种故障,比如卡顿、黑屏甚至崩溃直接开不了机。那么电脑黑屏开不了机怎么办呢?其实还是有解决的办法的,接下来看看小编是如何解决的吧! 工具/原料: 系统版本:windows 10系统 品牌型号&#xff1…

求余数联系和赋值运算

算术和赋值运算符 算术运算符&#xff1a; (加)、 -(减)、 *(乘)、 /(除)、 %(求余) 赋值运算符&#xff1a;、 、 -、 *、 /、 % 加法运算代码及效果 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title&…

Wlan三层组网+三层漫游

目录 wlan漫游配置(三层漫游)拓扑图和配置如下 思路: wlan配置不指定漫游组服务器的ac间漫游,实现笔记本之间在wlan覆盖范围内移动时业务不中断 要求:请大家参考教材196页完成AC间三层漫游配置&#xff0c;提交拓扑截图&#xff0c;ap上线截图&#xff0c;sta获取IP截图&#…