模式识别——贝叶斯决策理论BDR
- 须知
 - 基本原则
 - 0-1损失下的BDR
 - MAP(极大后验)
 - log trick
 
须知
所有内容在分类问题下讨论。
基本原则
定义
- X X X为观测
 - Y Y Y为状态
 - g ( x ) g(x) g(x)用 x x x对 y y y进行预测
 - 预测损失为 L [ g ( x ) , i ] L[g(x),i] L[g(x),i]
 
风险 
     
      
       
       
         R 
        
       
         i 
        
       
         s 
        
       
         k 
        
       
      
        Risk 
       
      
    Risk为损失的期望,即对所有观测造成的损失的平均,即对大量观测判别的损失最低:
  
      
       
        
        
          R 
         
        
          i 
         
        
          s 
         
        
          k 
         
        
          = 
         
         
         
           E 
          
          
          
            X 
           
          
            , 
           
          
            Y 
           
          
         
        
          [ 
         
        
          L 
         
        
          ( 
         
        
          X 
         
        
          , 
         
        
          Y 
         
        
          ) 
         
        
          ] 
         
        
          = 
         
         
        
          ∫ 
         
         
         
           ∑ 
          
          
          
            i 
           
          
            = 
           
          
            1 
           
          
         
           M 
          
         
         
         
           P 
          
          
          
            Y 
           
          
            , 
           
          
            X 
           
          
         
        
          ( 
         
        
          i 
         
        
          , 
         
        
          x 
         
        
          ) 
         
        
          L 
         
        
          [ 
         
        
          g 
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          , 
         
        
          i 
         
        
          ] 
         
        
          d 
         
        
          x 
         
        
       
         R i s k=E_{X,Y}[L(X,Y)]=\\ \int\sum_{i=1}^{M}P_{Y,X}(i,x)L[g(x),i]d x 
        
       
     Risk=EX,Y[L(X,Y)]=∫i=1∑MPY,X(i,x)L[g(x),i]dx
通过条件概率展开成如下形式:
  
      
       
        
        
          R 
         
        
          i 
         
        
          s 
         
        
          k 
         
        
          = 
         
         
         
           E 
          
         
           X 
          
         
        
          [ 
         
        
          R 
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          ] 
         
         
        
          = 
         
         
         
           ∫ 
          
          
          
            P 
           
          
            X 
           
          
         
           ( 
          
         
           x 
          
         
           ) 
          
         
           R 
          
         
           ( 
          
         
           x 
          
         
           ) 
          
         
           d 
          
         
           x 
          
         
        
       
         Risk=E_X[R(x)]\\ =\textstyle\int P_{X}(x)R(x)d x 
        
       
     Risk=EX[R(x)]=∫PX(x)R(x)dx
其中 
     
      
       
       
         R 
        
       
         ( 
        
       
         x 
        
       
         ) 
        
       
      
        R(x) 
       
      
    R(x)为条件风险,即给定观测下的风险:
  
      
       
        
        
          R 
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          = 
         
         
         
           ∑ 
          
          
          
            i 
           
          
            = 
           
          
            1 
           
          
         
           M 
          
         
         
         
           P 
          
          
          
            Y 
           
          
            ∣ 
           
          
            X 
           
          
         
        
          ( 
         
        
          i 
         
        
          ∣ 
         
        
          x 
         
        
          ) 
         
        
          L 
         
        
          [ 
         
        
          g 
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          , 
         
        
          i 
         
        
          ] 
         
        
       
         R(x)=\sum_{i=1}^{M}P_{Y|X}(i\mid x)L[g(x),i] 
        
       
     R(x)=i=1∑MPY∣X(i∣x)L[g(x),i]
我们的目标就是找一个最优的判别函数,在观测 x x x给定的情况,使得对状态的预测损失最小。
g ∗ ( x ) = arg  min  g ( x ) R ( x ) g^{*}(x)=\arg\operatorname*{min}_{g(x)}R(x) g∗(x)=argg(x)minR(x)
gpt给出的使用条件风险代替全局风险的原因,可以参考:
 
0-1损失下的BDR
通过推导可以得出结论,0-1损失下的BDR就是MAP(极大后验准则),这是非常符合认知的:
  
      
       
        
         
         
           g 
          
         
           ∗ 
          
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          = 
         
        
          a 
         
        
          r 
         
        
          g 
         
        
          m 
         
        
          a 
         
         
         
           x 
          
         
           i 
          
         
         
         
           P 
          
          
          
            Y 
           
          
            ∣ 
           
          
            X 
           
          
         
        
          ( 
         
        
          i 
         
        
          ∣ 
         
        
          x 
         
        
          ) 
         
        
       
         {\mathcal{g}}^{*}(x)=argmax_{i}P_{Y|X}(i\mid x) 
        
       
     g∗(x)=argmaxiPY∣X(i∣x)
 对应的损失为:
  
      
       
        
         
         
           R 
          
         
           ∗ 
          
         
        
          = 
         
        
          ∫ 
         
         
         
           P 
          
          
          
            Y 
           
          
            , 
           
          
            X 
           
          
         
        
          ( 
         
        
          y 
         
        
          ≠ 
         
         
         
           g 
          
         
           ∗ 
          
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          , 
         
        
          x 
         
        
          ) 
         
        
          d 
         
        
          x 
         
        
       
         R^{*}=\int P_{Y,X}(y\neq g^{*}(x),x)d x 
        
       
     R∗=∫PY,X(y=g∗(x),x)dx
MAP(极大后验)
考虑二分类问题,使用极大后验可以表示为:
 
 使用贝叶斯公式对极大后验展开,由于展开后的分母相同可以约掉(观测x已知),可以得到:
 
log trick
两边取对数等价,可以将决策函数化为以下形式,以简化计算:
 总而言之:
 


















