线性代数|机器学习-P21概率定义和Markov不等式

news2026/4/30 4:52:22

文章目录

1. 样本期望和方差
- 1.1 样本期望 $\mathrm{E}(X)$
- 1.2 样本期望 $\mathrm{D}(X)$
2. Markov 不等式&Chebyshev不等式
- 2.1 Markov不等式公式概述
- 2.2 Markov不等式公式证明：
- 2.3 Markov不等式公式举例：
- 2.4 Chebyshev不等式公式概述：
- 2.5 Chebyshev不等式公式证明：
3. 协方差矩阵
- 3.1 举例
- 3.2 Python 代码

1. 样本期望和方差

1.1 样本期望 $\mathrm{E}(X)$

假设我们有N个样本及概率如下 $x_1\rightarrow p_1,x_2\rightarrow p_2,\cdots,x_n\rightarrow p_n$ ,那么样本期望 $E (X)$
$\begin{equation} \mathrm{E}(X)=m=\sum_{i=1}^Np_ix_i \end{equation}$

函数期望：
$\begin{equation} \mathrm{E}(f(x))=m=\sum_{i=1}^Np_if(x_i) \end{equation}$

1.2 样本期望 $\mathrm{D}(X)$

$\begin{equation} \mathrm{D}(X)=\sigma^2=\mathrm{E}[(x_i-m)^2] \end{equation}$

展开可得：
$\begin{equation} \mathrm{D}(X)=\sum_{i=1}^Np_i(x_i-m)^2 \end{equation}$
展开可得：
$\begin{equation} =p_1(x_1^2+m^2-2x_1m)+p_2(x_2^2+m^2-2x_2m)+\cdots+p_n(x_n^2+m^2-2x_nm) \end{equation}$
$\begin{equation} =p_1(x_1^2+x_2^2+\cdots+x_n^2)+(p_1+p_2+\cdots+p_n)m^2-2m(p_1x_1+p_2x_2+\cdots+p_nx_n) \end{equation}$
因为 $p_1+p_2+\cdots+p_n=1,p_1x_1+p_2x_2+\cdots+p_nx_n=m$
$\mathrm{E}(X^2)=p_1(x_1^2+x_2^2+\cdots+x_n^2),\mathrm{E}(X)=m=\sum_{i=1}^Np_ix_i$
整理可得：
$\begin{equation} D(X)=\mathrm{E}(X^2)+m^2-2m^2=\mathrm{E}(X^2)-[\mathrm{E}(X)]^2 \end{equation}$

2. Markov 不等式&Chebyshev不等式

2.1 Markov不等式公式概述

假设X是一个均值有限的非负随机变量，均值为 $\mathrm{E}(X)$ ,这意味着 $P (X < 0) = 0$ ,那么对于任意的正数a,有
$\begin{equation} Prob(X\ge a)\le\frac{\mathrm{E}(X)}{a},X_i\ge 0 \end{equation}$

同等公式如下：
$\begin{equation} Prob(X< a)\ge 1-\frac{\mathrm{E}(X)}{a} \end{equation}$

2.2 Markov不等式公式证明：

我们定义样本分布的概率密度为 $f (x)$ ,如下图所述：
在这里插入图片描述

我们可以得到期望E(X)表示如下：
$\begin{equation} \mathrm{E}(X)=\int_{0}^{\infty}xf(x)\mathrm{d}x \end{equation}$
因为 x , f(x)我们定义均大于等于0，所以可以进行缩放，将原来积分从0到正无穷缩小到a到正无穷
$\begin{equation} \int_{0}^{\infty}xf(x)\mathrm{d}x\ge\int_{a}^{\infty}xf(x)\mathrm{d}x \end{equation}$
因为每个x现在都大于等于a， $x\ge a$ ，所以可以将系数x缩放为a，即：
$\begin{equation} \int_{0}^{\infty}xf(x)\mathrm{d}x\ge\int_{a}^{\infty}xf(x)\mathrm{d}x\ge\int_{a}^{\infty}af(x)\mathrm{d}x=a\int_{a}^{\infty}f(x)\mathrm{d}x \end{equation}$
这里的 $\int_{a}^{\infty}f(x)\mathrm{d}x=P(X\ge a)$ ,则整理上面公式可得：
$\begin{equation} \mathrm{E}(X)\ge a P(X\ge a)\rightarrow P(X\ge a)\le \frac{\mathrm{E}(X)}{a} \end{equation}$
综上所述，我们得到马尔科夫不等式如下：
$\begin{equation} P(X\ge a)\le \frac{\mathrm{E}(X)}{a} \end{equation}$
假设样本和概率表示如下：

Sample	$x_1=1$	$x_2=2$	$x_3=3$	$x_4=4$	$x_5=5$
P	$p_1$	$p_2$	$p_3$	$p_4$	$p_5$

$\begin{equation} \mathrm{E}(X)=p_1x_1+p_2x_2+p_3x_3+p_4x_4+p_5x_5 \end{equation}$

我们假设期望为1 ， $\mathrm{E}(X)=1$
- $\begin{equation} \mathrm{E}(X)=p_1x_1+p_2x_2+p_3x_3+p_4x_4+p_5x_5=1 \end{equation}$
X>3的概率如下：
$\begin{equation} Prob(X\ge 3)\le\frac{\mathrm{E}(X)}{3}\rightarrow Prob(X\ge 3)\le\frac{1}{3}\end{equation}$
$\begin{equation} p_3+p_4+p_5\le\frac{1}{3}\end{equation}$

2.3 Markov不等式公式举例：

假设Andrew在平时工作一个星期中平均下来一个星期会犯 4 次错，也就是期望 $\mathrm{E}(X)=4$ ,那么我们想知道如果Andrew在平时工作一个星期中会犯 10 次以上的错的概率多少？转换到数学公式如下：
$\begin{equation} \mathrm{E}(X)=4, Prob(X>10)\le \frac{\mathrm{E}(X)}{10}\rightarrow Prob(X>10)\le40\% \end{equation}$

也就是说Andrew 在平时一个星期中犯错10次以上的概率不会超过 $40\%$

2.4 Chebyshev不等式公式概述：

如果随机变量X的期望 $\mu$ ,方差 $\sigma$ 存在，则对于任意 $\epsilon >0$ ，有如下公式：
$\begin{equation} P{(|X-\mu|\ge \epsilon)}\le \frac{\sigma^2}{\epsilon^2} \end{equation}$

2.5 Chebyshev不等式公式证明：

我们已经证明了马尔科夫不等式表示如下：
$\begin{equation} P(Y\ge a)\le \frac{\mathrm{E}(Y)}{a} \end{equation}$

这里我们令 $Y=(X-\mu)^2,a=\epsilon^2$ 代入到公式中：
$\begin{equation} P((X-\mu)^2\ge \epsilon^2)\le \frac{\mathrm{E}((X-\mu)^2)}{\epsilon^2} \end{equation}$
我们可以发现 $P((X-\mu)^2\ge \epsilon^2)$ 等效于 $P(|X-\mu|\ge \epsilon)$ , $\sigma^2=\mathrm{E}((X-\mu)^2)$
整理上述公式可得切尔雪夫不等式结果：
$\begin{equation} P(|X-\mu|\ge \epsilon)\le \frac{\sigma^2}{\epsilon^2} \end{equation}$

3. 协方差矩阵

设 $\Omega$ 为样本空间，P是定义在 $\Omega$ 的事件族 $\Sigma$ 上的概率，换句话来说, $\Omega,\Sigma,P$ 是个概率空间；若X与Y定义在 $\Omega$ 上两个实数随机变量，期望分别为：
$\begin{equation} \mathrm{E}(X)=\int_{\Omega}X\mathrm{d}P=\mu;\mathrm{E}(Y)=\int_{\Omega}Y\mathrm{d}P=v; \end{equation}$

则两者间的协方差定义为：
$\begin{equation} \mathrm{cov}(X,Y)=\mathrm{E}[(X-\mu)(Y-v)] \end{equation}$

3.1 举例

[感觉老师举的例子不好]
假设我们有两个硬币，X,Y 正反的概率均为0.5，那么概率矩阵为：

当两个硬币单独扔下去时，概率矩阵如下：

Sample	$x_1=正$	$x_2=反$
$y_1=正$	$\frac{1}{4}$	$\frac{1}{4}$
$y_2=反$	$\frac{1}{4}$	$\frac{1}{4}$

当两个硬币粘贴在一起扔下去时，概率矩阵如下：

Sample	$x_1=正$	$x_2=反$
$y_1=正$	$\frac{1}{2}$	$0$
$y_2=反$	$0$	$\frac{1}{2}$

当三个硬币单独扔下去时,两个硬币用平面表示，三个硬币用立方体表示
$\begin{equation} P_{HHH}=\frac{1}{8} \end{equation}$

3.2 Python 代码

$\mathrm{COV}(X,Y)= 0.14516142787498987$

import numpy as np
import matplotlib.pyplot as plt

# Generate some data
x = np.random.rand(100)
y = 2 * x + np.random.normal(0, 0.1, 100)  # y is roughly 2 times x with some noise

# Calculate the covariance matrix
cov_matrix = np.cov(x, y)

# Extract the covariance value
cov_xy = cov_matrix[0, 1]

print(f"Covariance between x and y: {cov_xy}")

# Plotting the data
plt.scatter(x, y)
plt.title('Scatter plot of x and y')
plt.xlabel('x')
plt.ylabel('y')
plt.show()