机器学习中的数学基础(四):概率论
- 4 概率论
- 4.1 一些概念
- 4.2 二维随机变量
- 4.2.1 离散型
- 4.2.2 连续型
 
- 4.3 边缘分布
- 4.3.1 离散型边缘分布
- 4.3.2 连续型边缘概率密度
 
- 4.4 期望
- 4.4.1 一维期望
- 4.4.2 二维期望
 
- 4.5 马尔可夫不等式
- 4.6 切比雪夫不等式
 
在看西瓜书的时候有些地方的数学推导(尤其是概率论的似然、各种分布)让我很懵逼,本科的忘光了,感觉有点懂又不太懂,基于此,干脆花一点时间简单从头归纳一下机器学习中的数学基础,也就是高数、线代、概率论(其实大学都学过)。
 本文全部都是基于我自己的数学基础、尽量用方便理解的文字写的,记录的内容都是我本人记忆不太牢靠、需要时常来翻笔记复习的知识,已经完全掌握的比如极限连续性啥的都不会出现在这里。
学习内容来自这里
4 概率论
4.1 一些概念
随机事件:
 是什么?扔硬币,王者峡谷击杀数,一批产品合格数。。。这些有什么特点呢?
- 可以在相同条件下重复执行
- 事先就能知道可能出现的结果
- 试验开始前并不知道这一次的结果
随机试验E的所有结果构成的集合称为E的样本空间:
    
     
      
       
        S
       
       
        =
       
       
        {
       
       
        e
       
       
        }
       
      
      
       S=\{e\}
      
     
    S={e}
 抛硬币:
    
     
      
       
        S
       
       
        =
       
      
      
       S=
      
     
    S= {正面,反面}
 击杀数:
    
     
      
       
        S
       
       
        =
       
      
      
       S=
      
     
    S= {0,1,2,.….}
频率和概率:
 
 实验次数越多,越稳定。
古典概型:
 
条件概率:
 
 
P(B|A)与P(AB):
相同点:事件A、B都发生了
不同点:样本空间不同。在P(B|A)中,事件A成为样本空间,在P(AB)中,样本空间仍为 Ω \Omega Ω。
独立性:
 
重复独立试验:
- 重复独立试验:在相同的条件下,将试验E重复进行,且每次试验是独立进行的,即每次试验各种结果出现的概率不受其他各次试验结果的影响。
- n重伯努利试验:若一试验的结果只有两个,A和
     
      
       
        
         
          A
         
         
          ‾
         
        
       
       
        \overline{A}
       
      
     A,在相同的条件下,将试验独立地重复进行n次,则称这n次试验所组成的试验为n重伯努利试验或伯努利概型。
 计算:
  
4.2 二维随机变量
有两个指标,不仅要观察两个指标各自的情况,还要了解其相互的关系。
 
 
 
4.2.1 离散型

4.2.2 连续型

 举例子:
 
4.3 边缘分布
边缘分布函数:二维随机变量(X, Y)作为整体,有分布函数F(x,y)。其中,X和y都是随机变量,它们的分布函数记为:
    
     
      
       
        
         F
        
        
         X
        
       
       
        (
       
       
        x
       
       
        )
       
      
      
       F_X(x)
      
     
    FX(x),
    
     
      
       
        
         F
        
        
         Y
        
       
       
        (
       
       
        y
       
       
        )
       
      
      
       F_Y(y)
      
     
    FY(y),称为边缘分布函数。
 在分布函数F(x,y)中令y趋向于正无穷,就能得到
    
     
      
       
        
         F
        
        
         X
        
       
       
        (
       
       
        x
       
       
        )
       
      
      
       F_X(x)
      
     
    FX(x):
 
4.3.1 离散型边缘分布

4.3.2 连续型边缘概率密度
连续型的边缘概率密度
 对于连续型随机变量 
    
     
      
       
        (
       
       
        X
       
       
        ,
       
       
        Y
       
       
        )
       
      
      
       (X, Y)
      
     
    (X,Y) ,概率密度为 
    
     
      
       
        f
       
       
        (
       
       
        x
       
       
        ,
       
       
        y
       
       
        )
       
      
      
       f(x, y)
      
     
    f(x,y)
 
    
     
      
       
        X
       
       
        ,
       
       
        Y
       
      
      
       X, Y
      
     
    X,Y 的边缘概率密度为: 
     
      
       
        
         
          f
         
         
          X
         
        
        
         (
        
        
         x
        
        
         )
        
        
         =
        
        
         
          ∫
         
         
          
           −
          
          
           ∞
          
         
         
          
           +
          
          
           ∞
          
         
        
        
         f
        
        
         (
        
        
         x
        
        
         ,
        
        
         y
        
        
         )
        
        
         d
        
        
         y
        
        
         ,
        
        
         
          f
         
         
          Y
         
        
        
         (
        
        
         y
        
        
         )
        
        
         =
        
        
         
          ∫
         
         
          
           −
          
          
           ∞
          
         
         
          
           +
          
          
           ∞
          
         
        
        
         f
        
        
         (
        
        
         x
        
        
         ,
        
        
         y
        
        
         )
        
        
         d
        
        
         x
        
       
       
        f_X(x)=\int_{-\infty}^{+\infty} f(x, y) d y,f_Y(y)=\int_{-\infty}^{+\infty} f(x, y) d x
       
      
     fX(x)=∫−∞+∞f(x,y)dy,fY(y)=∫−∞+∞f(x,y)dx
 事实上: 
     
      
       
        
         
          F
         
         
          X
         
        
        
         (
        
        
         x
        
        
         )
        
        
         =
        
        
         F
        
        
         (
        
        
         x
        
        
         ,
        
        
         +
        
        
         ∞
        
        
         )
        
        
         =
        
        
         
          ∫
         
         
          
           −
          
          
           ∞
          
         
         
          x
         
        
        
         
          [
         
         
          
           ∫
          
          
           
            −
           
           
            ∞
           
          
          
           
            +
           
           
            ∞
           
          
         
         
          f
         
         
          (
         
         
          t
         
         
          ,
         
         
          y
         
         
          )
         
         
          d
         
         
          y
         
         
          ]
         
        
        
         d
        
        
         t
        
        
         =
        
        
         
          ∫
         
         
          
           −
          
          
           ∞
          
         
         
          x
         
        
        
         
          f
         
         
          X
         
        
        
         (
        
        
         t
        
        
         )
        
        
         d
        
        
         t
        
       
       
        F_X(x)=F(x,+\infty)=\int_{-\infty}^x\left[\int_{-\infty}^{+\infty} f(t, y) d y\right] d t=\int_{-\infty}^x f_X(t) d t
       
      
     FX(x)=F(x,+∞)=∫−∞x[∫−∞+∞f(t,y)dy]dt=∫−∞xfX(t)dt
 同理:
 
     
      
       
        
         
          F
         
         
          Y
         
        
        
         (
        
        
         y
        
        
         )
        
        
         =
        
        
         F
        
        
         (
        
        
         +
        
        
         ∞
        
        
         ,
        
        
         y
        
        
         )
        
        
         =
        
        
         
          ∫
         
         
          
           −
          
          
           ∞
          
         
         
          y
         
        
        
         
          [
         
         
          
           ∫
          
          
           
            −
           
           
            ∞
           
          
          
           
            +
           
           
            ∞
           
          
         
         
          f
         
         
          (
         
         
          x
         
         
          ,
         
         
          t
         
         
          )
         
         
          d
         
         
          x
         
         
          ]
         
        
        
         d
        
        
         t
        
        
         =
        
        
         
          ∫
         
         
          
           −
          
          
           ∞
          
         
         
          y
         
        
        
         
          f
         
         
          Y
         
        
        
         (
        
        
         t
        
        
         )
        
        
         d
        
        
         t
        
       
       
         F_Y(y) =F(+\infty, y)=\int_{-\infty}^y\left[\int_{-\infty}^{+\infty} f(x, t) d x\right] d t =\int_{-\infty}^y f_Y(t) d t 
       
      
     FY(y)=F(+∞,y)=∫−∞y[∫−∞+∞f(x,t)dx]dt=∫−∞yfY(t)dt
举例子:
 
4.4 期望
4.4.1 一维期望
离散型:
 
 连续型:
 
4.4.2 二维期望

 期望的性质:
 
4.5 马尔可夫不等式
方差:
 
 大数定理:在试验样本不变的条件下,重复试验多次,随机事件的频率近似于它的概率。
 小的样本试验不足以以偏概全因为有一些局限。
马尔可夫不等式:
 
     
      
       
        
         P
        
        
         (
        
        
         X
        
        
         ≥
        
        
         a
        
        
         )
        
        
         ≤
        
        
         
          
           E
          
          
           (
          
          
           X
          
          
           )
          
         
         
          a
         
        
        
         ,
        
        
        
         X
        
        
         ≥
        
        
         0
        
        
         ,
        
        
         a
        
        
         >
        
        
         0
        
       
       
        P(X\geq a)\leq \frac{E(X)}{a},\quad X\geq 0, a>0
       
      
     P(X≥a)≤aE(X),X≥0,a>0
 证明:由 
    
     
      
       
        X
       
       
        ≥
       
       
        0
       
      
      
       X\geq 0
      
     
    X≥0,
    
     
      
       
        X
       
       
        ≥
       
       
        a
       
      
      
       X\geq a
      
     
    X≥a 可知,
    
     
      
       
        
         X
        
        
         a
        
       
       
        ≥
       
       
        1
       
      
      
       \frac{X}{a}\geq1
      
     
    aX≥1,那么:
    
     
      
       
        P
       
       
        (
       
       
        X
       
       
        ≥
       
       
        a
       
       
        )
       
       
        =
       
       
        
         ∫
        
        
         a
        
        
         
          +
         
         
          ∞
         
        
       
       
        f
       
       
        (
       
       
        x
       
       
        )
       
       
        d
       
       
        x
       
       
        ≤
       
       
        
         ∫
        
        
         a
        
        
         
          +
         
         
          ∞
         
        
       
       
        
         X
        
        
         a
        
       
       
        d
       
       
        x
       
      
      
       P(X\geq a)=\int_{a}^{+\infty} f(x) dx\leq \int_{a}^{+\infty} \frac{X}{a} dx
      
     
    P(X≥a)=∫a+∞f(x)dx≤∫a+∞aXdx。则:
 
4.6 切比雪夫不等式

 中心极限定理:样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。



















