最大熵模型
极大似然估计
下面证明对偶函数的极大化等价于最大熵模型的极大似然估计。
极大似然估计的思想就是通过概率最大化来求出最符合的分类。对应的步骤为:
- 根据训练集,写出不同分类下的概率函数
- 将不同分类下的概率函数进行汇总,写出联合概率函数
- 根据训练集得出似然函数
- 假设似然函数可微,求偏导得到极大值,否则遍历。且也可以转换为对数似然函数来求解。
最大熵模型用极大似然估计的目的是为了估计最大条件概率分布,就是为了解决分类问题。
对于训练集中的某一个样本点 
     
      
       
       
         ( 
        
       
         x 
        
       
         , 
        
       
         y 
        
       
         ) 
        
       
      
        (x,y) 
       
      
    (x,y),对应的条件概率是 
     
      
       
        
        
          P 
         
        
          w 
         
        
       
         ( 
        
       
         y 
        
       
         ∣ 
        
       
         x 
        
       
         ) 
        
       
      
        P_w(y|x) 
       
      
    Pw(y∣x),假设该样本点在训练集中出现了很多次,假设为 
     
      
       
       
         m 
        
       
      
        m 
       
      
    m次。那么对应的概率函数可以表示为:
  
      
       
        
         
         
           P 
          
         
           w 
          
         
        
          ( 
         
        
          y 
         
        
          ∣ 
         
        
          x 
         
         
         
           ) 
          
         
           m 
          
         
        
       
         P_w(y|x)^m 
        
       
     Pw(y∣x)m
 然后,就可以按照极大似然估计的步骤,求出联合概率函数
  
      
       
        
         
         
           ∏ 
          
          
          
            x 
           
          
            , 
           
          
            y 
           
          
         
         
         
           P 
          
         
           w 
          
         
        
          ( 
         
        
          y 
         
        
          ∣ 
         
        
          x 
         
         
         
           ) 
          
         
           m 
          
         
        
       
         \prod_{x,y} P_w(y|x)^m 
        
       
     x,y∏Pw(y∣x)m
 那最大熵模型这里的 
     
      
       
       
         m 
        
       
      
        m 
       
      
    m等于多少呢?对于训练数据集来说,它就是样本总数 
     
      
       
       
         N 
        
       
      
        N 
       
      
    N乘以对应这组数据出现的经验概率 
     
      
       
        
        
          P 
         
        
          ~ 
         
        
       
         ( 
        
       
         x 
        
       
         , 
        
       
         y 
        
       
         ) 
        
       
      
        \tilde P(x,y) 
       
      
    P~(x,y),即:
  
      
       
        
        
          m 
         
        
          = 
         
        
          N 
         
        
          ⋅ 
         
         
         
           P 
          
         
           ~ 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
       
         m = N \cdot \tilde P(x,y) 
        
       
     m=N⋅P~(x,y)
 我们就可以把联合概率函数写成:
  
      
       
        
         
         
           ∏ 
          
          
          
            x 
           
          
            , 
           
          
            y 
           
          
         
         
         
           P 
          
         
           w 
          
         
        
          ( 
         
        
          y 
         
        
          ∣ 
         
        
          x 
         
         
         
           ) 
          
          
          
            N 
           
          
            ⋅ 
           
           
           
             P 
            
           
             ~ 
            
           
          
            ( 
           
          
            x 
           
          
            , 
           
          
            y 
           
          
            ) 
           
          
         
        
       
         \prod_{x,y} P_w(y|x)^{N \cdot \tilde P(x,y)} 
        
       
     x,y∏Pw(y∣x)N⋅P~(x,y)
 由于对于固定的训练集来说, 
     
      
       
       
         N 
        
       
      
        N 
       
      
    N是常数,故下文省去。
这里我们可以计算对数似然函数,对数似然函数可以表示为
  
      
       
        
         
         
           L 
          
          
          
            P 
           
          
            ~ 
           
          
         
        
          ( 
         
         
         
           P 
          
         
           w 
          
         
        
          ) 
         
        
          = 
         
        
          log 
         
        
           
         
         
         
           ∏ 
          
          
          
            x 
           
          
            , 
           
          
            y 
           
          
         
        
          P 
         
        
          ( 
         
        
          y 
         
        
          ∣ 
         
        
          x 
         
         
         
           ) 
          
          
           
           
             P 
            
           
             ~ 
            
           
          
            ( 
           
          
            x 
           
          
            , 
           
          
            y 
           
          
            ) 
           
          
         
        
          = 
         
         
         
           ∑ 
          
          
          
            x 
           
          
            , 
           
          
            y 
           
          
         
         
         
           P 
          
         
           ~ 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          log 
         
        
           
         
        
          P 
         
        
          ( 
         
        
          y 
         
        
          ∣ 
         
        
          x 
         
        
          ) 
         
        
       
         L_{\tilde P}(P_w) = \log \prod_{x,y} P(y|x)^{\tilde P(x,y)} =\sum_{x,y} \tilde P(x,y) \log P(y|x) 
        
       
     LP~(Pw)=logx,y∏P(y∣x)P~(x,y)=x,y∑P~(x,y)logP(y∣x)
 当条件概率分布 
     
      
       
       
         P 
        
       
         ( 
        
       
         y 
        
       
         ∣ 
        
       
         x 
        
       
         ) 
        
       
      
        P(y|x) 
       
      
    P(y∣x)是最大熵模型 
     
      
       
       
         ( 
        
       
         6.22 
        
       
         ) 
        
       
      
        (6.22) 
       
      
    (6.22)和 
     
      
       
       
         ( 
        
       
         6.23 
        
       
         ) 
        
       
      
        (6.23) 
       
      
    (6.23)时,对数似然函数 
     
      
       
        
        
          L 
         
         
         
           P 
          
         
           ~ 
          
         
        
       
         ( 
        
        
        
          P 
         
        
          w 
         
        
       
         ) 
        
       
      
        L_{\tilde P}(P_w) 
       
      
    LP~(Pw)为
  
      
       
        
         
          
          
           
            
             
              
               
                
                
                  L 
                 
                 
                 
                   P 
                  
                 
                   ~ 
                  
                 
                
               
                 ( 
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ) 
                
               
              
             
             
              
               
                
               
                 = 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 log 
                
               
                  
                
               
                 P 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
               
              
             
            
            
             
              
               
              
             
             
              
               
                
               
                 = 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 log 
                
               
                  
                
                
                
                  [ 
                 
                 
                 
                   1 
                  
                  
                   
                   
                     Z 
                    
                   
                     w 
                    
                   
                  
                    ( 
                   
                  
                    x 
                   
                  
                    ) 
                   
                  
                 
                
                  exp 
                 
                
                   
                 
                 
                 
                   ( 
                  
                  
                  
                    ∑ 
                   
                   
                   
                     i 
                    
                   
                     = 
                    
                   
                     1 
                    
                   
                  
                    n 
                   
                  
                  
                  
                    w 
                   
                  
                    i 
                   
                  
                  
                  
                    f 
                   
                  
                    i 
                   
                  
                 
                   ( 
                  
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                   ) 
                  
                 
                   ) 
                  
                 
                
                  ] 
                 
                
               
              
             
            
            
             
              
               
              
             
             
              
               
                
               
                 = 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
                
                
                  ( 
                 
                 
                 
                   ∑ 
                  
                  
                  
                    i 
                   
                  
                    = 
                   
                  
                    1 
                   
                  
                 
                   n 
                  
                 
                 
                 
                   w 
                  
                 
                   i 
                  
                 
                 
                 
                   f 
                  
                 
                   i 
                  
                 
                
                  ( 
                 
                
                  x 
                 
                
                  , 
                 
                
                  y 
                 
                
                  ) 
                 
                
                  − 
                 
                
                  log 
                 
                
                   
                 
                 
                 
                   Z 
                  
                 
                   w 
                  
                 
                
                  ( 
                 
                
                  x 
                 
                
                  ) 
                 
                
                  ) 
                 
                
               
              
             
            
            
             
              
               
              
             
             
              
               
                
               
                 = 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 − 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 log 
                
               
                  
                
                
                
                  Z 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
               
              
             
            
            
             
              
               
              
             
             
              
               
                
               
                 = 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 − 
                
                
                
                  ∑ 
                 
                
                  x 
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
               
                 log 
                
               
                  
                
                
                
                  Z 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
               
              
             
            
           
          
          
          
          
            (6.26) 
           
          
         
        
       
         \begin{aligned} L_{\tilde P}(P_w) &= \sum_{x,y} \tilde P(x,y) \log P(y|x) \\ &= \sum_{x,y} \tilde P(x,y) \log \left[ \frac{1}{Z_w(x)} \exp\left(\sum_{i=1}^n w_if_i(x,y)\right) \right] \\ &= \sum_{x,y} \tilde P(x,y) \left(\sum_{i=1}^n w_if_i(x,y) -\log Z_w(x)\right)\\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n w_if_i(x,y) - \sum_{x,y} \tilde P(x,y) \log Z_w(x) \\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n w_if_i(x,y) - \sum_{x} \tilde P(x) \log Z_w(x) \end{aligned} \tag{6.26} 
        
       
     LP~(Pw)=x,y∑P~(x,y)logP(y∣x)=x,y∑P~(x,y)log[Zw(x)1exp(i=1∑nwifi(x,y))]=x,y∑P~(x,y)(i=1∑nwifi(x,y)−logZw(x))=x,y∑P~(x,y)i=1∑nwifi(x,y)−x,y∑P~(x,y)logZw(x)=x,y∑P~(x,y)i=1∑nwifi(x,y)−x∑P~(x)logZw(x)(6.26)
 再看对偶函数 
     
      
       
       
         Ψ 
        
       
         ( 
        
       
         w 
        
       
         ) 
        
       
      
        \Psi(w) 
       
      
    Ψ(w),由式 
     
      
       
       
         ( 
        
       
         6.17 
        
       
         ) 
        
       
      
        (6.17) 
       
      
    (6.17)和式 
     
      
       
       
         ( 
        
       
         6.20 
        
       
         ) 
        
       
      
        (6.20) 
       
      
    (6.20)可得
  
      
       
        
         
          
          
           
            
             
              
               
               
                 Ψ 
                
               
                 ( 
                
               
                 w 
                
               
                 ) 
                
               
              
             
             
              
               
                
               
                 = 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
               
                 log 
                
               
                  
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
               
                 + 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  ( 
                 
                 
                 
                   ∑ 
                  
                  
                  
                    x 
                   
                  
                    , 
                   
                  
                    y 
                   
                  
                 
                 
                 
                   P 
                  
                 
                   ~ 
                  
                 
                
                  ( 
                 
                
                  x 
                 
                
                  , 
                 
                
                  y 
                 
                
                  ) 
                 
                 
                 
                   f 
                  
                 
                   i 
                  
                 
                
                  ( 
                 
                
                  x 
                 
                
                  , 
                 
                
                  y 
                 
                
                  ) 
                 
                
                  − 
                 
                 
                 
                   ∑ 
                  
                  
                  
                    x 
                   
                  
                    , 
                   
                  
                    y 
                   
                  
                 
                 
                 
                   P 
                  
                 
                   ~ 
                  
                 
                
                  ( 
                 
                
                  x 
                 
                
                  ) 
                 
                 
                 
                   P 
                  
                 
                   w 
                  
                 
                
                  ( 
                 
                
                  y 
                 
                
                  ∣ 
                 
                
                  x 
                 
                
                  ) 
                 
                 
                 
                   f 
                  
                 
                   i 
                  
                 
                
                  ( 
                 
                
                  x 
                 
                
                  , 
                 
                
                  y 
                 
                
                  ) 
                 
                
                  ) 
                 
                
               
              
             
            
            
             
              
               
              
             
             
              
               
                
               
                 = 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
               
                 log 
                
               
                  
                
                
                 
                 
                   exp 
                  
                 
                    
                  
                 
                   ( 
                  
                  
                  
                    ∑ 
                   
                   
                   
                     i 
                    
                   
                     = 
                    
                   
                     1 
                    
                   
                  
                    n 
                   
                  
                  
                  
                    w 
                   
                  
                    i 
                   
                  
                  
                  
                    f 
                   
                  
                    i 
                   
                  
                 
                   ( 
                  
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                   ) 
                  
                 
                   ) 
                  
                 
                 
                  
                  
                    Z 
                   
                  
                    w 
                   
                  
                 
                   ( 
                  
                 
                   x 
                  
                 
                   ) 
                  
                 
                
               
                 + 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 − 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
              
             
            
            
             
              
               
              
             
             
              
               
                
               
                 = 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
                
                
                  ( 
                 
                 
                 
                   ∑ 
                  
                  
                  
                    i 
                   
                  
                    = 
                   
                  
                    1 
                   
                  
                 
                   n 
                  
                 
                 
                 
                   w 
                  
                 
                   i 
                  
                 
                 
                 
                   f 
                  
                 
                   i 
                  
                 
                
                  ( 
                 
                
                  x 
                 
                
                  , 
                 
                
                  y 
                 
                
                  ) 
                 
                
                  ) 
                 
                
                  − 
                 
                
                  log 
                 
                
                   
                 
                 
                 
                   Z 
                  
                 
                   w 
                  
                 
                
                  ( 
                 
                
                  x 
                 
                
                  ) 
                 
                
                  ) 
                 
                
               
                 + 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 − 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
              
             
            
            
             
              
               
              
             
             
              
               
                
               
                 = 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 ) 
                
               
                 − 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
               
                 log 
                
               
                  
                
                
                
                  Z 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
               
                 + 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 − 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
              
             
            
            
             
              
               
              
             
             
              
               
                
               
                 = 
                
                
                 
                  
                  
                    ∑ 
                   
                   
                   
                     i 
                    
                   
                     = 
                    
                   
                     1 
                    
                   
                  
                    n 
                   
                  
                  
                  
                    ∑ 
                   
                   
                   
                     x 
                    
                   
                     , 
                    
                   
                     y 
                    
                   
                  
                  
                  
                    w 
                   
                  
                    i 
                   
                  
                  
                  
                    P 
                   
                  
                    ~ 
                   
                  
                 
                   ( 
                  
                 
                   x 
                  
                 
                   ) 
                  
                  
                  
                    P 
                   
                  
                    w 
                   
                  
                 
                   ( 
                  
                 
                   y 
                  
                 
                   ∣ 
                  
                 
                   x 
                  
                 
                   ) 
                  
                  
                  
                    f 
                   
                  
                    i 
                   
                  
                 
                   ( 
                  
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                   ) 
                  
                 
                
               
                 − 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
               
                 log 
                
               
                  
                
                
                
                  Z 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
               
                 + 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 − 
                
                
                 
                  
                  
                    ∑ 
                   
                   
                   
                     i 
                    
                   
                     = 
                    
                   
                     1 
                    
                   
                  
                    n 
                   
                  
                  
                  
                    ∑ 
                   
                   
                   
                     x 
                    
                   
                     , 
                    
                   
                     y 
                    
                   
                  
                  
                  
                    w 
                   
                  
                    i 
                   
                  
                  
                  
                    P 
                   
                  
                    ~ 
                   
                  
                 
                   ( 
                  
                 
                   x 
                  
                 
                   ) 
                  
                  
                  
                    P 
                   
                  
                    w 
                   
                  
                 
                   ( 
                  
                 
                   y 
                  
                 
                   ∣ 
                  
                 
                   x 
                  
                 
                   ) 
                  
                  
                  
                    f 
                   
                  
                    i 
                   
                  
                 
                   ( 
                  
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                   ) 
                  
                 
                
               
              
             
            
            
             
              
               
              
             
             
              
               
                
               
                 = 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 − 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
               
                 log 
                
               
                  
                
                
                
                  Z 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
               
              
             
            
            
             
              
               
              
             
             
              
               
                
               
                 = 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 − 
                
                
                
                  ∑ 
                 
                
                  x 
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
               
                 log 
                
               
                  
                
                
                
                  Z 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
                
                
               
                 利用 
                
                
                
                  ∑ 
                 
                
                  y 
                 
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
               
                 = 
                
               
                 1 
                
               
              
             
            
            
             
              
               
              
             
             
              
               
                
               
                 = 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 − 
                
                
                
                  ∑ 
                 
                
                  x 
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
               
                 log 
                
               
                  
                
                
                
                  Z 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
               
              
             
            
           
          
          
          
          
            (6.27) 
           
          
         
        
       
         \begin{aligned} \Psi(w) &= \sum_{x,y} \tilde P(x)P_w(y|x) \log P_w(y|x) + \sum_{i=1}^n w_i \left( \sum_{x,y} \tilde P(x,y)f_i(x,y) - \sum_{x,y} \tilde P(x) P_w(y|x)f_i(x,y) \right) \\ &= \sum_{x,y} \tilde P(x) P_w(y|x) \log \frac{ \exp(\sum_{i=1}^n w_if_i(x,y))}{Z_w(x)} + \sum_{i=1}^n w_i\sum_{x,y} \tilde P(x,y)f_i(x,y) -\sum_{i=1}^n w_i \sum_{x,y} \tilde P(x) P_w(y|x)f_i(x,y) \\ &= \sum_{x,y} \tilde P(x) P_w(y|x) \left(\sum_{i=1}^n w_if_i(x,y)) - \log Z_w(x) \right) + \sum_{i=1}^n\sum_{x,y} w_i\tilde P(x,y)f_i(x,y) -\sum_{i=1}^n \sum_{x,y} w_i \tilde P(x) P_w(y|x)f_i(x,y) \\ &= \sum_{x,y} \tilde P(x) P_w(y|x) \sum_{i=1}^n w_if_i(x,y)) - \sum_{x,y} \tilde P(x) P_w(y|x) \log Z_w(x) + \sum_{i=1}^n\sum_{x,y} w_i\tilde P(x,y)f_i(x,y) -\sum_{i=1}^n \sum_{x,y} w_i \tilde P(x) P_w(y|x)f_i(x,y) \\ &= \cancel{\sum_{i=1}^n \sum_{x,y} w_i \tilde P(x) P_w(y|x)f_i(x,y)} - \sum_{x,y} \tilde P(x) P_w(y|x) \log Z_w(x) + \sum_{i=1}^n\sum_{x,y} w_i\tilde P(x,y)f_i(x,y) -\cancel{\sum_{i=1}^n \sum_{x,y} w_i \tilde P(x) P_w(y|x)f_i(x,y) } \\ &= \sum_{i=1}^n\sum_{x,y} w_i\tilde P(x,y)f_i(x,y) - \sum_{x,y} \tilde P(x) P_w(y|x) \log Z_w(x) \\ &= \sum_{i=1}^n\sum_{x,y} w_i\tilde P(x,y)f_i(x,y) - \sum_{x} \tilde P(x) \log Z_w(x) \quad\quad 利用\sum_y P_w(y|x)=1 \\ &= \sum_{x,y} \tilde P(x,y)\sum_{i=1}^n w_if_i(x,y) - \sum_{x} \tilde P(x) \log Z_w(x) \end{aligned} \tag{6.27} 
        
       
     Ψ(w)=x,y∑P~(x)Pw(y∣x)logPw(y∣x)+i=1∑nwi(x,y∑P~(x,y)fi(x,y)−x,y∑P~(x)Pw(y∣x)fi(x,y))=x,y∑P~(x)Pw(y∣x)logZw(x)exp(∑i=1nwifi(x,y))+i=1∑nwix,y∑P~(x,y)fi(x,y)−i=1∑nwix,y∑P~(x)Pw(y∣x)fi(x,y)=x,y∑P~(x)Pw(y∣x)(i=1∑nwifi(x,y))−logZw(x))+i=1∑nx,y∑wiP~(x,y)fi(x,y)−i=1∑nx,y∑wiP~(x)Pw(y∣x)fi(x,y)=x,y∑P~(x)Pw(y∣x)i=1∑nwifi(x,y))−x,y∑P~(x)Pw(y∣x)logZw(x)+i=1∑nx,y∑wiP~(x,y)fi(x,y)−i=1∑nx,y∑wiP~(x)Pw(y∣x)fi(x,y)=i=1∑nx,y∑wiP~(x)Pw(y∣x)fi(x,y) 
                    −x,y∑P~(x)Pw(y∣x)logZw(x)+i=1∑nx,y∑wiP~(x,y)fi(x,y)−i=1∑nx,y∑wiP~(x)Pw(y∣x)fi(x,y) 
                    =i=1∑nx,y∑wiP~(x,y)fi(x,y)−x,y∑P~(x)Pw(y∣x)logZw(x)=i=1∑nx,y∑wiP~(x,y)fi(x,y)−x∑P~(x)logZw(x)利用y∑Pw(y∣x)=1=x,y∑P~(x,y)i=1∑nwifi(x,y)−x∑P~(x)logZw(x)(6.27)
 上面用到了 
     
      
       
        
        
          ∑ 
         
        
          y 
         
        
        
        
          P 
         
        
          w 
         
        
       
         ( 
        
       
         y 
        
       
         ∣ 
        
       
         x 
        
       
         ) 
        
       
         = 
        
       
         1 
        
       
      
        \sum_y P_w(y|x)=1 
       
      
    ∑yPw(y∣x)=1,以及 
     
      
       
        
        
          w 
         
        
          0 
         
        
        
        
          ( 
         
        
          1 
         
        
          − 
         
         
         
           ∑ 
          
         
           y 
          
         
         
         
           P 
          
         
           w 
          
         
        
          ( 
         
        
          y 
         
        
          ∣ 
         
        
          x 
         
        
          ) 
         
        
          ) 
         
        
       
         = 
        
       
         0 
        
       
      
        w_0\left( 1 -\sum_y P_w(y|x) \right) =0 
       
      
    w0(1−∑yPw(y∣x))=0。
比较 
     
      
       
       
         ( 
        
       
         6.26 
        
       
         ) 
        
       
      
        (6.26) 
       
      
    (6.26)和 
     
      
       
       
         ( 
        
       
         6.27 
        
       
         ) 
        
       
      
        (6.27) 
       
      
    (6.27),可得
  
      
       
        
        
          Ψ 
         
        
          ( 
         
        
          w 
         
        
          ) 
         
        
          = 
         
         
         
           L 
          
          
          
            P 
           
          
            ~ 
           
          
         
        
          P 
         
        
          ( 
         
        
          w 
         
        
          ) 
         
        
       
         \Psi(w) = L_{\tilde P}P(w) 
        
       
     Ψ(w)=LP~P(w)
 即对偶函数 
     
      
       
       
         Ψ 
        
       
         ( 
        
       
         w 
        
       
         ) 
        
       
      
        \Psi(w) 
       
      
    Ψ(w)等价于对数似然函数 
     
      
       
        
        
          L 
         
         
         
           P 
          
         
           ~ 
          
         
        
       
         P 
        
       
         ( 
        
       
         w 
        
       
         ) 
        
       
      
        L_{\tilde P}P(w) 
       
      
    LP~P(w),于是证明了最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计。
于是,最大熵模型的学习问题就转换为具体求解对数似然函数极大化或对偶函数极大化的问题。
可以将最大熵模型写成更一般的形式。
  
      
       
        
         
          
          
           
            
            
              P 
             
            
              w 
             
            
           
             ( 
            
           
             y 
            
           
             ∣ 
            
           
             x 
            
           
             ) 
            
           
             = 
            
            
            
              1 
             
             
              
              
                Z 
               
              
                w 
               
              
             
               ( 
              
             
               x 
              
             
               ) 
              
             
            
           
             exp 
            
           
              
            
            
            
              ( 
             
             
             
               ∑ 
              
              
              
                i 
               
              
                = 
               
              
                1 
               
              
             
               n 
              
             
             
             
               w 
              
             
               i 
              
             
             
             
               f 
              
             
               i 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
            
              ) 
             
            
           
          
          
          
          
            (6.28) 
           
          
         
        
       
         P_w(y|x) = \frac{1}{Z_w(x)} \exp\left(\sum_{i=1}^n w_if_i(x,y) \right) \tag{6.28} 
        
       
     Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y))(6.28)
 其中,
  
      
       
        
         
          
          
           
            
            
              Z 
             
            
              w 
             
            
           
             ( 
            
           
             x 
            
           
             ) 
            
           
             = 
            
            
            
              ∑ 
             
            
              y 
             
            
           
             exp 
            
           
              
            
            
            
              ( 
             
             
             
               ∑ 
              
              
              
                i 
               
              
                = 
               
              
                1 
               
              
             
               n 
              
             
             
             
               w 
              
             
               i 
              
             
             
             
               f 
              
             
               i 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
            
              ) 
             
            
           
          
          
          
          
            (6.29) 
           
          
         
        
       
         Z_w(x) = \sum_y\exp\left(\sum_{i=1}^n w_if_i(x,y) \right) \tag{6.29} 
        
       
     Zw(x)=y∑exp(i=1∑nwifi(x,y))(6.29)
 这里, 
     
      
       
       
         x 
        
       
         ∈ 
        
        
        
          R 
         
        
          n 
         
        
       
      
        x \in \Bbb R^n 
       
      
    x∈Rn为输入, 
     
      
       
       
         y 
        
       
         ∈ 
        
       
         { 
        
       
         1 
        
       
         , 
        
       
         2 
        
       
         , 
        
       
         ⋯ 
         
       
         , 
        
       
         K 
        
       
         } 
        
       
      
        y \in \{1,2,\cdots, K\} 
       
      
    y∈{1,2,⋯,K}为输出, 
     
      
       
       
         w 
        
       
         ∈ 
        
        
        
          R 
         
        
          n 
         
        
       
      
        w \in \Bbb R^n 
       
      
    w∈Rn为权重向量, 
     
      
       
        
        
          f 
         
        
          i 
         
        
       
         ( 
        
       
         x 
        
       
         , 
        
       
         y 
        
       
         ) 
        
       
         , 
         
       
         i 
        
       
         = 
        
       
         1 
        
       
         , 
        
       
         ⋯ 
         
       
         , 
        
       
         n 
        
       
      
        f_i(x,y),\,i=1,\cdots,n 
       
      
    fi(x,y),i=1,⋯,n为任意实数值特征函数。
模型学习的最优化算法
改进的迭代尺度法
改进的迭代尺度法(improved iterative scaling, IIS)是一种最大熵模型学习的最优化算法。
假设已知最大熵模型为
  
      
       
        
         
         
           P 
          
         
           w 
          
         
        
          ( 
         
        
          y 
         
        
          ∣ 
         
        
          x 
         
        
          ) 
         
        
          = 
         
         
         
           1 
          
          
           
           
             Z 
            
           
             w 
            
           
          
            ( 
           
          
            x 
           
          
            ) 
           
          
         
        
          exp 
         
        
           
         
         
         
           ( 
          
          
          
            ∑ 
           
           
           
             i 
            
           
             = 
            
           
             1 
            
           
          
            n 
           
          
          
          
            w 
           
          
            i 
           
          
          
          
            f 
           
          
            i 
           
          
         
           ( 
          
         
           x 
          
         
           , 
          
         
           y 
          
         
           ) 
          
         
           ) 
          
         
        
       
         P_w(y|x) = \frac{1}{Z_w(x)} \exp\left( \sum_{i=1}^n w_if_i(x,y) \right) 
        
       
     Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y))
 其中,
  
      
       
        
         
         
           Z 
          
         
           w 
          
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          = 
         
         
         
           ∑ 
          
         
           y 
          
         
        
          exp 
         
        
           
         
         
         
           ( 
          
          
          
            ∑ 
           
           
           
             i 
            
           
             = 
            
           
             1 
            
           
          
            n 
           
          
          
          
            w 
           
          
            i 
           
          
          
          
            f 
           
          
            i 
           
          
         
           ( 
          
         
           x 
          
         
           , 
          
         
           y 
          
         
           ) 
          
         
           ) 
          
         
        
       
         Z_w(x) = \sum_y \exp \left( \sum_{i=1}^n w_if_i(x,y) \right) 
        
       
     Zw(x)=y∑exp(i=1∑nwifi(x,y))
 对数似然函数为
  
      
       
        
        
          L 
         
        
          ( 
         
        
          w 
         
        
          ) 
         
        
          = 
         
         
         
           ∑ 
          
          
          
            x 
           
          
            , 
           
          
            y 
           
          
         
         
         
           P 
          
         
           ~ 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
         
         
           ∑ 
          
          
          
            i 
           
          
            = 
           
          
            1 
           
          
         
           n 
          
         
         
         
           w 
          
         
           i 
          
         
         
         
           f 
          
         
           i 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          − 
         
         
         
           ∑ 
          
         
           x 
          
         
         
         
           P 
          
         
           ~ 
          
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          log 
         
        
           
         
         
         
           Z 
          
         
           w 
          
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
       
         L(w) = \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n w_if_i(x,y) - \sum_x \tilde P(x) \log Z_w(x) 
        
       
     L(w)=x,y∑P~(x,y)i=1∑nwifi(x,y)−x∑P~(x)logZw(x)
 目标是通过极大似然估计学习模型参数,即求对数似然函数的极大值 
     
      
       
        
        
          w 
         
        
          ^ 
         
        
       
      
        \hat w 
       
      
    w^。
IIS的想法是: 假设最大熵模型当前的参数向量是 w = ( w 1 , w 2 , ⋯ , w n ) T w=(w_1,w_2,\cdots,w_n)^T w=(w1,w2,⋯,wn)T,希望找到一个新的向量 w + δ = ( w 1 + δ 1 , w 2 + δ 2 , ⋯ , w n + δ n ) T w+\delta=(w_1+\delta_1,w_2+\delta_2,\cdots,w_n+\delta_n)^T w+δ=(w1+δ1,w2+δ2,⋯,wn+δn)T,使得模型的对数似然函数值增大。
如果能有这样一种参数向量更新的方法 τ : w → w + δ \tau: w \rightarrow w + \delta τ:w→w+δ,那么久可以重复使用这一方法,直到找到对数似然函数的最大值。
对于给定的经验分布 
     
      
       
        
        
          P 
         
        
          ~ 
         
        
       
         ( 
        
       
         x 
        
       
         , 
        
       
         y 
        
       
         ) 
        
       
      
        \tilde P(x,y) 
       
      
    P~(x,y),模型参数从 
     
      
       
       
         w 
        
       
      
        w 
       
      
    w到 
     
      
       
       
         w 
        
       
         + 
        
       
         δ 
        
       
      
        w+\delta 
       
      
    w+δ,对数似然函数的改变量是
  
      
       
        
         
          
           
            
            
              L 
             
            
              ( 
             
            
              w 
             
            
              + 
             
            
              δ 
             
            
              ) 
             
            
              − 
             
            
              L 
             
            
              ( 
             
            
              w 
             
            
              ) 
             
            
           
          
          
           
            
             
            
              = 
             
             
             
               ∑ 
              
              
              
                x 
               
              
                , 
               
              
                y 
               
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
             
             
               ∑ 
              
              
              
                i 
               
              
                = 
               
              
                1 
               
              
             
               n 
              
             
            
              ( 
             
             
             
               w 
              
             
               i 
              
             
            
              + 
             
             
             
               δ 
              
             
               i 
              
             
            
              ) 
             
             
             
               f 
              
             
               i 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
            
              − 
             
             
             
               ∑ 
              
             
               x 
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              ) 
             
            
              log 
             
            
               
             
             
             
               Z 
              
              
              
                w 
               
              
                + 
               
              
                δ 
               
              
             
            
              ( 
             
            
              x 
             
            
              ) 
             
            
              − 
             
             
             
               ∑ 
              
              
              
                x 
               
              
                , 
               
              
                y 
               
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
             
             
               ∑ 
              
              
              
                i 
               
              
                = 
               
              
                1 
               
              
             
               n 
              
             
             
             
               w 
              
             
               i 
              
             
             
             
               f 
              
             
               i 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
            
              + 
             
             
             
               ∑ 
              
             
               x 
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              ) 
             
            
              log 
             
            
               
             
             
             
               Z 
              
             
               w 
              
             
            
              ( 
             
            
              x 
             
            
              ) 
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              = 
             
             
             
               ∑ 
              
              
              
                x 
               
              
                , 
               
              
                y 
               
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
             
             
               ∑ 
              
              
              
                i 
               
              
                = 
               
              
                1 
               
              
             
               n 
              
             
             
             
               δ 
              
             
               i 
              
             
             
             
               f 
              
             
               i 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
            
              − 
             
             
             
               ∑ 
              
             
               x 
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              ) 
             
            
              log 
             
            
               
             
             
              
               
               
                 Z 
                
                
                
                  w 
                 
                
                  + 
                 
                
                  δ 
                 
                
               
              
                ( 
               
              
                x 
               
              
                ) 
               
              
              
               
               
                 Z 
                
               
                 w 
                
               
              
                ( 
               
              
                x 
               
              
                ) 
               
              
             
            
           
          
         
        
       
         \begin{aligned} L(w+\delta) - L(w) &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n (w_i+\delta_i)f_i(x,y) - \sum_x \tilde P(x) \log Z_{w+\delta}(x) - \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n w_if_i(x,y) + \sum_x \tilde P(x) \log Z_w(x) \\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_if_i(x,y) - \sum_x \tilde P(x) \log \frac{Z_{w+\delta}(x)}{Z_w(x)} \end{aligned} 
        
       
     L(w+δ)−L(w)=x,y∑P~(x,y)i=1∑n(wi+δi)fi(x,y)−x∑P~(x)logZw+δ(x)−x,y∑P~(x,y)i=1∑nwifi(x,y)+x∑P~(x)logZw(x)=x,y∑P~(x,y)i=1∑nδifi(x,y)−x∑P~(x)logZw(x)Zw+δ(x)
 利用不等式
  
      
       
        
        
          − 
         
        
          log 
         
        
           
         
        
          α 
         
        
          ≥ 
         
        
          1 
         
        
          − 
         
        
          α 
         
        
          , 
         
         
        
          α 
         
        
          > 
         
        
          0 
         
        
       
         -\log \alpha \geq 1 -\alpha, \quad \alpha > 0 
        
       
     −logα≥1−α,α>0
 建立对数似然函数改变量的下界:
  
      
       
        
         
          
           
            
            
              L 
             
            
              ( 
             
            
              w 
             
            
              + 
             
            
              δ 
             
            
              ) 
             
            
              − 
             
            
              L 
             
            
              ( 
             
            
              w 
             
            
              ) 
             
            
           
          
          
           
            
             
            
              ≥ 
             
             
             
               ∑ 
              
              
              
                x 
               
              
                , 
               
              
                y 
               
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
             
             
               ∑ 
              
              
              
                i 
               
              
                = 
               
              
                1 
               
              
             
               n 
              
             
             
             
               δ 
              
             
               i 
              
             
             
             
               f 
              
             
               i 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
            
              + 
             
            
              1 
             
            
              − 
             
             
             
               ∑ 
              
             
               x 
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              ) 
             
             
              
               
               
                 Z 
                
                
                
                  w 
                 
                
                  + 
                 
                
                  δ 
                 
                
               
              
                ( 
               
              
                x 
               
              
                ) 
               
              
              
               
               
                 Z 
                
               
                 w 
                
               
              
                ( 
               
              
                x 
               
              
                ) 
               
              
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              = 
             
             
             
               ∑ 
              
              
              
                x 
               
              
                , 
               
              
                y 
               
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
             
             
               ∑ 
              
              
              
                i 
               
              
                = 
               
              
                1 
               
              
             
               n 
              
             
             
             
               δ 
              
             
               i 
              
             
             
             
               f 
              
             
               i 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
            
              + 
             
            
              1 
             
            
              − 
             
             
             
               ∑ 
              
             
               x 
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              ) 
             
             
              
               
               
                 ∑ 
                
               
                 y 
                
               
              
                exp 
               
              
                 
               
               
               
                 ( 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
               
                 ( 
                
                
                
                  w 
                 
                
                  i 
                 
                
               
                 + 
                
                
                
                  δ 
                 
                
                  i 
                 
                
               
                 ) 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 ) 
                
               
              
              
               
               
                 ∑ 
                
               
                 y 
                
               
              
                exp 
               
              
                 
               
               
               
                 ( 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 ) 
                
               
              
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              = 
             
             
             
               ∑ 
              
              
              
                x 
               
              
                , 
               
              
                y 
               
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
             
             
               ∑ 
              
              
              
                i 
               
              
                = 
               
              
                1 
               
              
             
               n 
              
             
             
             
               δ 
              
             
               i 
              
             
             
             
               f 
              
             
               i 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
            
              + 
             
            
              1 
             
            
              − 
             
             
             
               ∑ 
              
             
               x 
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              ) 
             
             
              
               
               
                 ∑ 
                
               
                 y 
                
               
              
                exp 
               
              
                 
               
               
               
                 ( 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 ) 
                
               
              
                ⋅ 
               
              
                exp 
               
              
                 
               
              
                ( 
               
               
               
                 ∑ 
                
                
                
                  i 
                 
                
                  = 
                 
                
                  1 
                 
                
               
                 n 
                
               
               
               
                 δ 
                
               
                 i 
                
               
               
               
                 f 
                
               
                 i 
                
               
              
                ( 
               
              
                x 
               
              
                , 
               
              
                y 
               
              
                ) 
               
              
                ) 
               
              
              
               
               
                 ∑ 
                
               
                 y 
                
               
              
                exp 
               
              
                 
               
               
               
                 ( 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  w 
                 
                
                  i 
                 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 ) 
                
               
              
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              = 
             
             
             
               ∑ 
              
              
              
                x 
               
              
                , 
               
              
                y 
               
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
             
             
               ∑ 
              
              
              
                i 
               
              
                = 
               
              
                1 
               
              
             
               n 
              
             
             
             
               δ 
              
             
               i 
              
             
             
             
               f 
              
             
               i 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
            
              + 
             
            
              1 
             
            
              − 
             
             
             
               ∑ 
              
             
               x 
              
             
             
             
               P 
              
             
               ~ 
              
             
            
              ( 
             
            
              x 
             
            
              ) 
             
             
             
               ∑ 
              
             
               y 
              
             
             
             
               P 
              
             
               w 
              
             
            
              ( 
             
            
              y 
             
            
              ∣ 
             
            
              x 
             
            
              ) 
             
            
              ⋅ 
             
            
              exp 
             
            
               
             
            
              ( 
             
             
             
               ∑ 
              
              
              
                i 
               
              
                = 
               
              
                1 
               
              
             
               n 
              
             
             
             
               δ 
              
             
               i 
              
             
             
             
               f 
              
             
               i 
              
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              y 
             
            
              ) 
             
            
              ) 
             
            
           
          
         
        
       
         \begin{aligned} L(w+\delta) - L(w) &\geq \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \frac{Z_{w+\delta}(x)}{Z_w(x)} \\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \frac{\sum_y\exp\left(\sum_{i=1}^n (w_i+\delta_i)f_i(x,y) \right)}{\sum_y\exp\left(\sum_{i=1}^n w_if_i(x,y) \right)} \\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \frac{\sum_y\exp \left(\sum_{i=1}^n w_if_i(x,y) \right) \cdot \exp(\sum_{i=1}^n\delta_if_i(x,y))}{\sum_y\exp\left(\sum_{i=1}^n w_if_i(x,y) \right)} \\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \cdot \exp(\sum_{i=1}^n\delta_if_i(x,y)) \\ \end{aligned} 
        
       
     L(w+δ)−L(w)≥x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)Zw(x)Zw+δ(x)=x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)∑yexp(∑i=1nwifi(x,y))∑yexp(∑i=1n(wi+δi)fi(x,y))=x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)∑yexp(∑i=1nwifi(x,y))∑yexp(∑i=1nwifi(x,y))⋅exp(∑i=1nδifi(x,y))=x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)y∑Pw(y∣x)⋅exp(i=1∑nδifi(x,y))
 记这个关于 
     
      
       
       
         δ 
        
       
      
        \delta 
       
      
    δ的函数为 
     
      
       
       
         A 
        
       
         ( 
        
       
         δ 
        
       
         ∣ 
        
       
         w 
        
       
         ) 
        
       
      
        A(\delta|w) 
       
      
    A(δ∣w):
  
      
       
        
        
          A 
         
        
          ( 
         
        
          δ 
         
        
          ∣ 
         
        
          w 
         
        
          ) 
         
        
          = 
         
         
         
           ∑ 
          
          
          
            x 
           
          
            , 
           
          
            y 
           
          
         
         
         
           P 
          
         
           ~ 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
         
         
           ∑ 
          
          
          
            i 
           
          
            = 
           
          
            1 
           
          
         
           n 
          
         
         
         
           δ 
          
         
           i 
          
         
         
         
           f 
          
         
           i 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          + 
         
        
          1 
         
        
          − 
         
         
         
           ∑ 
          
         
           x 
          
         
         
         
           P 
          
         
           ~ 
          
         
        
          ( 
         
        
          x 
         
        
          ) 
         
         
         
           ∑ 
          
         
           y 
          
         
         
         
           P 
          
         
           w 
          
         
        
          ( 
         
        
          y 
         
        
          ∣ 
         
        
          x 
         
        
          ) 
         
        
          ⋅ 
         
        
          exp 
         
        
           
         
        
          ( 
         
         
         
           ∑ 
          
          
          
            i 
           
          
            = 
           
          
            1 
           
          
         
           n 
          
         
         
         
           δ 
          
         
           i 
          
         
         
         
           f 
          
         
           i 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          ) 
         
        
       
         A(\delta|w) = \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \cdot \exp(\sum_{i=1}^n\delta_if_i(x,y)) 
        
       
     A(δ∣w)=x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)y∑Pw(y∣x)⋅exp(i=1∑nδifi(x,y))
 代表了在已知参数 
     
      
       
       
         w 
        
       
      
        w 
       
      
    w的情况下所对应的 
     
      
       
       
         δ 
        
       
      
        \delta 
       
      
    δ的函数。
于是有
  
      
       
        
        
          L 
         
        
          ( 
         
        
          w 
         
        
          + 
         
        
          δ 
         
        
          ) 
         
        
          − 
         
        
          L 
         
        
          ( 
         
        
          w 
         
        
          ) 
         
        
          ≥ 
         
        
          A 
         
        
          ( 
         
        
          δ 
         
        
          ∣ 
         
        
          w 
         
        
          ) 
         
        
       
         L(w+\delta) -L(w) \geq A(\delta|w) 
        
       
     L(w+δ)−L(w)≥A(δ∣w)
 即 
     
      
       
       
         A 
        
       
         ( 
        
       
         δ 
        
       
         ∣ 
        
       
         w 
        
       
         ) 
        
       
      
        A(\delta|w) 
       
      
    A(δ∣w)是对数似然函数该变量的一个下界。
这个不等式为什么成立,这里来证明一下。
把这个不等式写成下面的形式:
  
      
       
        
        
          f 
         
        
          ( 
         
        
          α 
         
        
          ) 
         
        
          = 
         
        
          − 
         
        
          log 
         
        
           
         
        
          α 
         
        
          − 
         
        
          ( 
         
        
          1 
         
        
          − 
         
        
          α 
         
        
          ) 
         
        
       
         f(\alpha) = -\log \alpha - (1 -\alpha) 
        
       
     f(α)=−logα−(1−α)
 
它的函数图像是上面这样子的。
我们需要证明 
     
      
       
       
         f 
        
       
         ( 
        
       
         α 
        
       
         ) 
        
       
         ≥ 
        
       
         0 
        
       
      
        f(\alpha ) \geq 0 
       
      
    f(α)≥0,其中 
     
      
       
       
         α 
        
       
         > 
        
       
         0 
        
       
      
        \alpha > 0 
       
      
    α>0。对上式求导数:
  
      
       
        
         
         
           f 
          
         
           ′ 
          
         
        
          ( 
         
        
          α 
         
        
          ) 
         
        
          = 
         
        
          − 
         
         
         
           1 
          
         
           α 
          
         
        
          + 
         
        
          1 
         
        
          = 
         
         
          
          
            α 
           
          
            − 
           
          
            1 
           
          
         
           α 
          
         
        
       
         f^\prime(\alpha) = -\frac{1}{\alpha} + 1 = \frac{\alpha-1}{\alpha} 
        
       
     f′(α)=−α1+1=αα−1
 显然 
     
      
       
       
         α 
        
       
         = 
        
       
         1 
        
       
      
        \alpha=1 
       
      
    α=1时导数为零。
- 当 α > 1 \alpha > 1 α>1时, f ′ ( α ) > 0 f^\prime (\alpha) > 0 f′(α)>0 ,说明在 α > 1 \alpha > 1 α>1是 f ( α ) f(\alpha) f(α)是单调递增的;
- 当 1 > α > 0 1 > \alpha > 0 1>α>0时, f ′ ( α ) < 0 f^\prime(\alpha) < 0 f′(α)<0,说明在 1 > α > 0 1 > \alpha > 0 1>α>0时, f ( α ) f(\alpha) f(α)是单调递减的;
因此, 
     
      
       
       
         α 
        
       
         = 
        
       
         1 
        
       
      
        \alpha=1 
       
      
    α=1是函数的极小值。把 
     
      
       
       
         α 
        
       
         = 
        
       
         1 
        
       
      
        \alpha=1 
       
      
    α=1代入得
  
      
       
        
        
          f 
         
        
          ( 
         
        
          1 
         
        
          ) 
         
        
          = 
         
        
          − 
         
        
          log 
         
        
           
         
        
          1 
         
        
          − 
         
        
          ( 
         
        
          1 
         
        
          − 
         
        
          1 
         
        
          ) 
         
        
          = 
         
        
          0 
         
        
       
         f(1) = -\log 1 -(1-1) = 0 
        
       
     f(1)=−log1−(1−1)=0
 说明 
     
      
       
       
         f 
        
       
         ( 
        
       
         α 
        
       
         ) 
        
       
         ≥ 
        
       
         0 
        
       
      
        f(\alpha ) \geq 0 
       
      
    f(α)≥0。
如果能找到合适的 δ \delta δ式下界 A ( δ ∣ w ) A(\delta|w) A(δ∣w)提高,那么对数似然函数也会提高。但是,函数 A ( δ ∣ w ) A(\delta|w) A(δ∣w)中的 δ \delta δ是一个向量,含有多个变量,不利于同时优化。IIS试图一次只优化其中一个变量 δ i \delta_i δi,而固定其他变量 δ j , i ≠ j \delta_j ,\, i \neq j δj,i=j。
为了达到这一目的,IIS进一步降低下界 
     
      
       
       
         A 
        
       
         ( 
        
       
         δ 
        
       
         ∣ 
        
       
         w 
        
       
         ) 
        
       
      
        A(\delta|w) 
       
      
    A(δ∣w)。具体地,IIS引进一个量 
     
      
       
        
        
          f 
         
        
          # 
         
        
       
         ( 
        
       
         x 
        
       
         , 
        
       
         y 
        
       
         ) 
        
       
      
        f^\#(x,y) 
       
      
    f#(x,y):
  
      
       
        
         
         
           f 
          
         
           # 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          = 
         
         
         
           ∑ 
          
         
           i 
          
         
         
         
           f 
          
         
           i 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
       
         f^\#(x,y) = \sum_i f_i(x,y) 
        
       
     f#(x,y)=i∑fi(x,y)
 同时有:
  
      
       
        
         
          
           
           
             f 
            
           
             i 
            
           
          
            ( 
           
          
            x 
           
          
            , 
           
          
            y 
           
          
            ) 
           
          
          
           
           
             f 
            
           
             # 
            
           
          
            ( 
           
          
            x 
           
          
            , 
           
          
            y 
           
          
            ) 
           
          
         
        
          ≥ 
         
        
          0 
         
        
       
         \frac{f_i(x,y)}{f^\#(x,y)} \geq 0 
        
       
     f#(x,y)fi(x,y)≥0
 且
  
      
       
        
         
         
           ∑ 
          
         
           i 
          
         
         
          
           
           
             f 
            
           
             i 
            
           
          
            ( 
           
          
            x 
           
          
            , 
           
          
            y 
           
          
            ) 
           
          
          
           
           
             f 
            
           
             # 
            
           
          
            ( 
           
          
            x 
           
          
            , 
           
          
            y 
           
          
            ) 
           
          
         
        
          = 
         
        
          1 
         
        
       
         \sum_i \frac{f_i(x,y)}{f^\#(x,y)} =1 
        
       
     i∑f#(x,y)fi(x,y)=1
 显然这是成立的。
因为 
     
      
       
        
        
          f 
         
        
          i 
         
        
       
      
        f_i 
       
      
    fi是二值函数,当特征函数满足时取1,否则取0。因此 
     
      
       
        
        
          f 
         
        
          # 
         
        
       
         ( 
        
       
         x 
        
       
         , 
        
       
         y 
        
       
         ) 
        
       
      
        f^\#(x,y) 
       
      
    f#(x,y)表示特征在 
     
      
       
       
         ( 
        
       
         x 
        
       
         , 
        
       
         y 
        
       
         ) 
        
       
      
        (x,y) 
       
      
    (x,y)出现的次数,对于固定的训练集来说是一个常量。这样 
     
      
       
       
         A 
        
       
         ( 
        
       
         δ 
        
       
         ∣ 
        
       
         w 
        
       
         ) 
        
       
      
        A(\delta|w) 
       
      
    A(δ∣w)可以改写为:
  
      
       
        
         
          
          
           
            
             
              
               
               
                 A 
                
               
                 ( 
                
               
                 δ 
                
               
                 ∣ 
                
               
                 w 
                
               
                 ) 
                
               
              
             
             
              
               
                
               
                 = 
                
                
                
                  ∑ 
                 
                 
                 
                   x 
                  
                 
                   , 
                  
                 
                   y 
                  
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
                
                
                  ∑ 
                 
                 
                 
                   i 
                  
                 
                   = 
                  
                 
                   1 
                  
                 
                
                  n 
                 
                
                
                
                  δ 
                 
                
                  i 
                 
                
                
                
                  f 
                 
                
                  i 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 , 
                
               
                 y 
                
               
                 ) 
                
               
                 + 
                
               
                 1 
                
               
                 − 
                
                
                
                  ∑ 
                 
                
                  x 
                 
                
                
                
                  P 
                 
                
                  ~ 
                 
                
               
                 ( 
                
               
                 x 
                
               
                 ) 
                
                
                
                  ∑ 
                 
                
                  y 
                 
                
                
                
                  P 
                 
                
                  w 
                 
                
               
                 ( 
                
               
                 y 
                
               
                 ∣ 
                
               
                 x 
                
               
                 ) 
                
               
                 exp 
                
               
                  
                
                
                
                  ( 
                 
                 
                 
                   f 
                  
                 
                   # 
                  
                 
                
                  ( 
                 
                
                  x 
                 
                
                  , 
                 
                
                  y 
                 
                
                  ) 
                 
                 
                 
                   ∑ 
                  
                  
                  
                    i 
                   
                  
                    = 
                   
                  
                    1 
                   
                  
                 
                   n 
                  
                 
                 
                  
                   
                   
                     δ 
                    
                   
                     i 
                    
                   
                   
                   
                     f 
                    
                   
                     i 
                    
                   
                  
                    ( 
                   
                  
                    x 
                   
                  
                    , 
                   
                  
                    y 
                   
                  
                    ) 
                   
                  
                  
                   
                   
                     f 
                    
                   
                     # 
                    
                   
                  
                    ( 
                   
                  
                    x 
                   
                  
                    , 
                   
                  
                    y 
                   
                  
                    ) 
                   
                  
                 
                
                  ) 
                 
                
               
              
             
            
           
          
          
          
          
            (6.30) 
           
          
         
        
       
         \begin{aligned} A(\delta|w) &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_if_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \exp \left( f^\#(x,y) \sum_{i=1}^n \frac{\delta_i f_i(x,y)}{f^\#(x,y)}\right) \end{aligned} \tag{6.30} 
        
       
     A(δ∣w)=x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)y∑Pw(y∣x)exp(f#(x,y)i=1∑nf#(x,y)δifi(x,y))(6.30)
 如果尝试计算 
     
      
       
        
         
         
           ∂ 
          
         
           A 
          
         
           ( 
          
         
           δ 
          
         
           ∣ 
          
         
           w 
          
         
           ) 
          
         
         
         
           ∂ 
          
          
          
            δ 
           
          
            i 
           
          
         
        
       
      
        \frac{\partial A(\delta|w)}{\partial \delta_i} 
       
      
    ∂δi∂A(δ∣w),会发现第三项的 
     
      
       
       
         exp 
        
       
          
        
       
         ( 
        
        
        
          ∑ 
         
        
          i 
         
        
        
        
          δ 
         
        
          i 
         
        
        
        
          f 
         
        
          i 
         
        
       
         ( 
        
       
         x 
        
       
         , 
        
       
         y 
        
       
         ) 
        
       
         ) 
        
       
      
        \exp (\sum_i \delta_i f_i(x,y)) 
       
      
    exp(∑iδifi(x,y))项不好消,还是会和所有的 
     
      
       
        
        
          δ 
         
        
          i 
         
        
       
      
        \delta_i 
       
      
    δi有关,因此我们尝试利用Jesen不等式,改写这个式子。
根据Jesen不等式,得到
  
      
       
        
        
          exp 
         
        
           
         
         
         
           ( 
          
          
          
            ∑ 
           
           
           
             i 
            
           
             = 
            
           
             1 
            
           
          
            n 
           
          
          
           
            
            
              f 
             
            
              i 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
           
           
            
            
              f 
             
            
              # 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
           
          
          
          
            δ 
           
          
            i 
           
          
          
          
            f 
           
          
            # 
           
          
         
           ( 
          
         
           x 
          
         
           , 
          
         
           y 
          
         
           ) 
          
         
           ) 
          
         
        
          ≤ 
         
         
         
           ∑ 
          
          
          
            i 
           
          
            = 
           
          
            1 
           
          
         
           n 
          
         
         
          
           
           
             f 
            
           
             i 
            
           
          
            ( 
           
          
            x 
           
          
            , 
           
          
            y 
           
          
            ) 
           
          
          
           
           
             f 
            
           
             # 
            
           
          
            ( 
           
          
            x 
           
          
            , 
           
          
            y 
           
          
            ) 
           
          
         
        
          exp 
         
        
           
         
        
          ( 
         
         
         
           δ 
          
         
           i 
          
         
         
         
           f 
          
         
           # 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          ) 
         
        
       
         \exp \left( \sum_{i=1}^n \frac{ f_i(x,y)}{f^\#(x,y)} \delta_if^\#(x,y) \right) \leq \sum_{i=1}^n \frac{f_i(x,y)}{f^\#(x,y)} \exp(\delta_i f^\#(x,y)) 
        
       
     exp(i=1∑nf#(x,y)fi(x,y)δif#(x,y))≤i=1∑nf#(x,y)fi(x,y)exp(δif#(x,y))
Jensen不等式的说明参见:EM算法
于是式 
     
      
       
       
         ( 
        
       
         6.30 
        
       
         ) 
        
       
      
        (6.30) 
       
      
    (6.30)可以改写为
  
      
       
        
         
          
          
           
           
             A 
            
           
             ( 
            
           
             δ 
            
           
             ∣ 
            
           
             w 
            
           
             ) 
            
           
             ≥ 
            
            
            
              ∑ 
             
             
             
               x 
              
             
               , 
              
             
               y 
              
             
            
            
            
              P 
             
            
              ~ 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
            
            
              ∑ 
             
             
             
               i 
              
             
               = 
              
             
               1 
              
             
            
              n 
             
            
            
            
              δ 
             
            
              i 
             
            
            
            
              f 
             
            
              i 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
           
             + 
            
           
             1 
            
           
             − 
            
            
            
              ∑ 
             
            
              x 
             
            
            
            
              P 
             
            
              ~ 
             
            
           
             ( 
            
           
             x 
            
           
             ) 
            
            
            
              ∑ 
             
            
              y 
             
            
            
            
              P 
             
            
              w 
             
            
           
             ( 
            
           
             y 
            
           
             ∣ 
            
           
             x 
            
           
             ) 
            
            
            
              ∑ 
             
             
             
               i 
              
             
               = 
              
             
               1 
              
             
            
              n 
             
            
            
            
              ( 
             
             
              
               
               
                 f 
                
               
                 i 
                
               
              
                ( 
               
              
                x 
               
              
                , 
               
              
                y 
               
              
                ) 
               
              
              
               
               
                 f 
                
               
                 # 
                
               
              
                ( 
               
              
                x 
               
              
                , 
               
              
                y 
               
              
                ) 
               
              
             
            
              ) 
             
            
           
             exp 
            
           
              
            
           
             ( 
            
            
            
              δ 
             
            
              i 
             
            
            
            
              f 
             
            
              # 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
           
             ) 
            
           
          
          
          
          
            (6.31) 
           
          
         
        
       
         A(\delta|w) \geq \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_if_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \sum_{i=1}^n \left( \frac{f_i(x,y)}{f^\#(x,y)}\right) \exp(\delta_i f^\#(x,y)) \tag{6.31} 
        
       
     A(δ∣w)≥x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)y∑Pw(y∣x)i=1∑n(f#(x,y)fi(x,y))exp(δif#(x,y))(6.31)
 记不等式右端为
  
      
       
        
        
          B 
         
        
          ( 
         
        
          δ 
         
        
          ∣ 
         
        
          w 
         
        
          ) 
         
        
          = 
         
         
         
           ∑ 
          
          
          
            x 
           
          
            , 
           
          
            y 
           
          
         
         
         
           P 
          
         
           ~ 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
         
         
           ∑ 
          
          
          
            i 
           
          
            = 
           
          
            1 
           
          
         
           n 
          
         
         
         
           δ 
          
         
           i 
          
         
         
         
           f 
          
         
           i 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          + 
         
        
          1 
         
        
          − 
         
         
         
           ∑ 
          
         
           x 
          
         
         
         
           P 
          
         
           ~ 
          
         
        
          ( 
         
        
          x 
         
        
          ) 
         
         
         
           ∑ 
          
         
           y 
          
         
         
         
           P 
          
         
           w 
          
         
        
          ( 
         
        
          y 
         
        
          ∣ 
         
        
          x 
         
        
          ) 
         
         
         
           ∑ 
          
          
          
            i 
           
          
            = 
           
          
            1 
           
          
         
           n 
          
         
         
         
           ( 
          
          
           
            
            
              f 
             
            
              i 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
           
           
            
            
              f 
             
            
              # 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
           
          
         
           ) 
          
         
        
          exp 
         
        
           
         
        
          ( 
         
         
         
           δ 
          
         
           i 
          
         
         
         
           f 
          
         
           # 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          ) 
         
        
       
         B(\delta|w) = \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_if_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \sum_{i=1}^n \left( \frac{f_i(x,y)}{f^\#(x,y)}\right) \exp(\delta_i f^\#(x,y)) 
        
       
     B(δ∣w)=x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)y∑Pw(y∣x)i=1∑n(f#(x,y)fi(x,y))exp(δif#(x,y))
 进而得到
  
      
       
        
        
          L 
         
        
          ( 
         
        
          w 
         
        
          + 
         
        
          δ 
         
        
          ) 
         
        
          − 
         
        
          L 
         
        
          ( 
         
        
          w 
         
        
          ) 
         
        
          ≥ 
         
        
          B 
         
        
          ( 
         
        
          δ 
         
        
          ∣ 
         
        
          w 
         
        
          ) 
         
        
       
         L(w+\delta) -L(w) \geq B(\delta|w) 
        
       
     L(w+δ)−L(w)≥B(δ∣w)
 此时, 
     
      
       
       
         B 
        
       
         ( 
        
       
         δ 
        
       
         ∣ 
        
       
         w 
        
       
         ) 
        
       
      
        B(\delta|w) 
       
      
    B(δ∣w)是对数似然函数改变量的一个新的下界。
求 
     
      
       
       
         B 
        
       
         ( 
        
       
         δ 
        
       
         ∣ 
        
       
         w 
        
       
         ) 
        
       
      
        B(\delta|w) 
       
      
    B(δ∣w)对 
     
      
       
        
        
          δ 
         
        
          i 
         
        
       
      
        \delta_i 
       
      
    δi的偏导数:
  
      
       
        
         
          
          
           
            
             
             
               ∂ 
              
             
               B 
              
             
               ( 
              
             
               δ 
              
             
               ∣ 
              
             
               w 
              
             
               ) 
              
             
             
             
               ∂ 
              
              
              
                δ 
               
              
                i 
               
              
             
            
           
             = 
            
            
            
              ∑ 
             
             
             
               x 
              
             
               , 
              
             
               y 
              
             
            
            
            
              P 
             
            
              ~ 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
            
            
              f 
             
            
              i 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
           
             − 
            
            
            
              ∑ 
             
            
              x 
             
            
            
            
              P 
             
            
              ~ 
             
            
           
             ( 
            
           
             x 
            
           
             ) 
            
            
            
              ∑ 
             
            
              y 
             
            
            
            
              P 
             
            
              w 
             
            
           
             ( 
            
           
             y 
            
           
             ∣ 
            
           
             x 
            
           
             ) 
            
            
            
              f 
             
            
              i 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
           
             exp 
            
           
              
            
           
             ( 
            
            
            
              δ 
             
            
              i 
             
            
            
            
              f 
             
            
              # 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
           
             ) 
            
           
          
          
          
          
            (6.32) 
           
          
         
        
       
         \frac{\partial B(\delta|w)}{\partial \delta_i} = \sum_{x,y} \tilde P(x,y) f_i(x,y) - \sum_x \tilde P(x) \sum_y P_w(y|x) f_i(x,y) \exp(\delta_i f^\#(x,y)) \tag{6.32} 
        
       
     ∂δi∂B(δ∣w)=x,y∑P~(x,y)fi(x,y)−x∑P~(x)y∑Pw(y∣x)fi(x,y)exp(δif#(x,y))(6.32)
 在上式中,除 
     
      
       
        
        
          δ 
         
        
          i 
         
        
       
      
        \delta_i 
       
      
    δi外不含其他任何变量。令偏导数为0得到
  
      
       
        
         
          
          
           
            
            
              ∑ 
             
             
             
               x 
              
             
               , 
              
             
               y 
              
             
            
            
            
              P 
             
            
              ~ 
             
            
           
             ( 
            
           
             x 
            
           
             ) 
            
            
            
              P 
             
            
              w 
             
            
           
             ( 
            
           
             y 
            
           
             ∣ 
            
           
             x 
            
           
             ) 
            
            
            
              f 
             
            
              i 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
           
             exp 
            
           
              
            
           
             ( 
            
            
            
              δ 
             
            
              i 
             
            
            
            
              f 
             
            
              # 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
           
             ) 
            
           
             = 
            
            
            
              E 
             
             
             
               P 
              
             
               ~ 
              
             
            
           
             ( 
            
            
            
              f 
             
            
              i 
             
            
           
             ) 
            
           
          
          
          
          
            (6.33) 
           
          
         
        
       
         \sum_{x,y} \tilde P(x) P_w(y|x) f_i(x,y) \exp(\delta_if^\#(x,y)) = E_{\tilde P}(f_i) \tag{6.33} 
        
       
     x,y∑P~(x)Pw(y∣x)fi(x,y)exp(δif#(x,y))=EP~(fi)(6.33)
 于是,依次对 
     
      
       
        
        
          δ 
         
        
          i 
         
        
       
      
        \delta_i 
       
      
    δi求解方程 
     
      
       
       
         ( 
        
       
         6.33 
        
       
         ) 
        
       
      
        (6.33) 
       
      
    (6.33)就可以求出 
     
      
       
       
         δ 
        
       
      
        \delta 
       
      
    δ。
这样就得到了一种求 w w w的最优解的迭代算法,即改进的迭代尺度算法IIS。
算法6.1 (改进的迭代尺度算法IIS)
输入: 特征函数 f 1 , f 2 , ⋯ , f n f_1,f_2,\cdots,f_n f1,f2,⋯,fn;经验分布 P ~ ( X , Y ) \tilde P(X,Y) P~(X,Y),模型 P w ( y ∣ x ) P_w(y|x) Pw(y∣x);
输出: 最优参数值 w i ∗ w^*_i wi∗;最优模型 P w ∗ P_{w^*} Pw∗。
(1) 对所有 i ∈ { 1 , 2 , ⋯ , n } i \in \{1,2,\cdots,n\} i∈{1,2,⋯,n},取初值 w i = 0 w_i=0 wi=0。
(2) 对每一 i ∈ { 1 , 2 , ⋯ , n } i \in \{1,2,\cdots, n\} i∈{1,2,⋯,n}
 (a) 令 
     
      
       
        
        
          δ 
         
        
          i 
         
        
       
      
        \delta_i 
       
      
    δi是方程
  
      
       
        
         
         
           ∑ 
          
          
          
            x 
           
          
            , 
           
          
            y 
           
          
         
         
         
           P 
          
         
           ~ 
          
         
        
          ( 
         
        
          x 
         
        
          ) 
         
         
         
           P 
          
         
           w 
          
         
        
          ( 
         
        
          y 
         
        
          ∣ 
         
        
          x 
         
        
          ) 
         
         
         
           f 
          
         
           i 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          exp 
         
        
           
         
        
          ( 
         
         
         
           δ 
          
         
           i 
          
         
         
         
           f 
          
         
           # 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          ) 
         
        
          = 
         
         
         
           E 
          
          
          
            P 
           
          
            ~ 
           
          
         
        
          ( 
         
         
         
           f 
          
         
           i 
          
         
        
          ) 
         
        
       
         \sum_{x,y} \tilde P(x) P_w(y|x) f_i(x,y) \exp(\delta_if^\#(x,y)) = E_{\tilde P}(f_i) 
        
       
     x,y∑P~(x)Pw(y∣x)fi(x,y)exp(δif#(x,y))=EP~(fi)
 的解,这里,
  
      
       
        
         
         
           f 
          
         
           # 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          = 
         
         
         
           ∑ 
          
          
          
            i 
           
          
            = 
           
          
            1 
           
          
         
           n 
          
         
         
         
           f 
          
         
           i 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
       
         f^\#(x,y) = \sum_{i=1}^n f_i(x,y) 
        
       
     f#(x,y)=i=1∑nfi(x,y)
  (b) 更新 
     
      
       
        
        
          w 
         
        
          i 
         
        
       
      
        w_i 
       
      
    wi值: 
     
      
       
        
        
          w 
         
        
          i 
         
        
       
         ← 
        
        
        
          w 
         
        
          i 
         
        
       
         + 
        
        
        
          δ 
         
        
          i 
         
        
       
      
        w_i \leftarrow w_i + \delta_i 
       
      
    wi←wi+δi。
(3) 如果不是所有 w i w_i wi都收敛,重复步(2)。
拟牛顿法
最大熵模型的学习还可以应用牛顿法或拟牛顿法。
对于最大熵模型而言,
  
      
       
        
         
         
           P 
          
         
           w 
          
         
        
          ( 
         
        
          y 
         
        
          ∣ 
         
        
          x 
         
        
          ) 
         
        
          = 
         
         
          
          
            exp 
           
          
             
           
           
           
             ( 
            
            
            
              ∑ 
             
             
             
               i 
              
             
               = 
              
             
               1 
              
             
            
              n 
             
            
            
            
              w 
             
            
              i 
             
            
            
            
              f 
             
            
              i 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
           
             ) 
            
           
          
          
           
           
             ∑ 
            
           
             y 
            
           
          
            exp 
           
          
             
           
           
           
             ( 
            
            
            
              ∑ 
             
             
             
               i 
              
             
               = 
              
             
               1 
              
             
            
              n 
             
            
            
            
              w 
             
            
              i 
             
            
            
            
              f 
             
            
              i 
             
            
           
             ( 
            
           
             x 
            
           
             , 
            
           
             y 
            
           
             ) 
            
           
             ) 
            
           
          
         
        
       
         P_w(y|x) = \frac{\exp\left( \sum_{i=1}^n w_if_i(x,y) \right)}{ \sum_y \exp \left( \sum_{i=1}^n w_if_i(x,y) \right)} 
        
       
     Pw(y∣x)=∑yexp(∑i=1nwifi(x,y))exp(∑i=1nwifi(x,y))
 目标函数:
  
      
       
        
         
          
          
            min 
           
          
             
           
          
          
          
            w 
           
          
            ∈ 
           
           
           
             R 
            
           
             n 
            
           
          
         
        
          f 
         
        
          ( 
         
        
          w 
         
        
          ) 
         
        
          = 
         
         
         
           ∑ 
          
         
           x 
          
         
         
         
           P 
          
         
           ~ 
          
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          log 
         
        
           
         
         
         
           ∑ 
          
         
           y 
          
         
        
          exp 
         
        
           
         
         
         
           ( 
          
          
          
            ∑ 
           
           
           
             i 
            
           
             = 
            
           
             1 
            
           
          
            n 
           
          
          
          
            w 
           
          
            i 
           
          
          
          
            f 
           
          
            i 
           
          
         
           ( 
          
         
           x 
          
         
           , 
          
         
           y 
          
         
           ) 
          
         
           ) 
          
         
        
          − 
         
         
         
           ∑ 
          
          
          
            x 
           
          
            , 
           
          
            y 
           
          
         
         
         
           P 
          
         
           ~ 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
         
         
           ∑ 
          
          
          
            i 
           
          
            = 
           
          
            1 
           
          
         
           n 
          
         
         
         
           w 
          
         
           i 
          
         
         
         
           f 
          
         
           i 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
       
         \min_{w\in \Bbb R^n} f(w) = \sum_{x} \tilde P(x)\log \sum_y \exp \left(\sum_{i=1}^n w_if_i(x,y)\right) - \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n w_i f_i(x,y) 
        
       
     w∈Rnminf(w)=x∑P~(x)logy∑exp(i=1∑nwifi(x,y))−x,y∑P~(x,y)i=1∑nwifi(x,y)
 梯度:
  
      
       
        
        
          g 
         
        
          ( 
         
        
          w 
         
        
          ) 
         
        
          = 
         
         
          
          
            ( 
           
           
            
            
              ∂ 
             
            
              f 
             
            
              ( 
             
            
              w 
             
            
              ) 
             
            
            
            
              ∂ 
             
             
             
               w 
              
             
               1 
              
             
            
           
          
            , 
           
           
            
            
              ∂ 
             
            
              f 
             
            
              ( 
             
            
              w 
             
            
              ) 
             
            
            
            
              ∂ 
             
             
             
               w 
              
             
               2 
              
             
            
           
          
            , 
           
          
            ⋯ 
            
          
            , 
           
           
            
            
              ∂ 
             
            
              f 
             
            
              ( 
             
            
              w 
             
            
              ) 
             
            
            
            
              ∂ 
             
             
             
               w 
              
             
               n 
              
             
            
           
          
            ) 
           
          
         
           T 
          
         
        
       
         g(w) = \left(\frac{\partial f(w)}{\partial w_1} ,\frac{\partial f(w)}{\partial w_2},\cdots, \frac{\partial f(w)}{\partial w_n} \right)^T 
        
       
     g(w)=(∂w1∂f(w),∂w2∂f(w),⋯,∂wn∂f(w))T
 其中
  
      
       
        
         
          
          
            ∂ 
           
          
            f 
           
          
            ( 
           
          
            w 
           
          
            ) 
           
          
          
          
            ∂ 
           
           
           
             w 
            
           
             i 
            
           
          
         
        
          = 
         
         
         
           ∑ 
          
          
          
            x 
           
          
            , 
           
          
            y 
           
          
         
         
         
           P 
          
         
           ~ 
          
         
        
          ( 
         
        
          x 
         
        
          ) 
         
         
         
           P 
          
         
           w 
          
         
        
          ( 
         
        
          y 
         
        
          ∣ 
         
        
          x 
         
        
          ) 
         
         
         
           f 
          
         
           i 
          
         
        
          ( 
         
        
          x 
         
        
          , 
         
        
          y 
         
        
          ) 
         
        
          − 
         
         
         
           E 
          
          
          
            P 
           
          
            ~ 
           
          
         
        
          ( 
         
         
         
           f 
          
         
           i 
          
         
        
          ) 
         
        
          , 
         
         
        
          i 
         
        
          = 
         
        
          1 
         
        
          , 
         
        
          2 
         
        
          ⋯ 
          
        
          , 
         
        
          n 
         
        
       
         \frac{\partial f(w)}{\partial w_i} = \sum_{x,y} \tilde P(x)P_w(y|x) f_i(x,y) - E_{\tilde P}(f_i),\quad i=1,2\cdots,n 
        
       
     ∂wi∂f(w)=x,y∑P~(x)Pw(y∣x)fi(x,y)−EP~(fi),i=1,2⋯,n
BFGS算法
输入:特征函数 f 1 , f 2 , ⋯ , f n f_1,f_2,\cdots,f_n f1,f2,⋯,fn;经验分布 P ~ ( x , y ) \tilde P(x,y) P~(x,y),目标函数 f ( w ) f(w) f(w),梯度 g ( w ) = ∇ f ( w ) g(w)=\nabla f(w) g(w)=∇f(w),精度要求 ϵ \epsilon ϵ;
输出:最优化参数 w ∗ w^* w∗;最优模型 P w ∗ ( y ∣ x ) P_{w^*}(y|x) Pw∗(y∣x)。
(1) 选定初始值 w ( 0 ) w^{(0)} w(0),取 B 0 B_0 B0为正定对称矩阵,置 k = 0 k=0 k=0。
(2) 计算 g k = g ( w ( k ) ) g_k=g(w^{(k)}) gk=g(w(k))。若 ∣ ∣ g k ∣ ∣ < ϵ ||g_k||<\epsilon ∣∣gk∣∣<ϵ,则停止计算,得近似解 w ∗ = w ( k ) w^*=w^{(k)} w∗=w(k);否则转(3)。
(3) 由 B k p k = − g k B_kp_k=-g_k Bkpk=−gk求出 p k p_k pk。
(4) 一维搜索: 即求得 
     
      
       
        
        
          λ 
         
        
          k 
         
        
       
      
        \lambda_k 
       
      
    λk使得
  
      
       
        
        
          f 
         
        
          ( 
         
         
         
           w 
          
          
          
            ( 
           
          
            k 
           
          
            ) 
           
          
         
        
          + 
         
         
         
           λ 
          
         
           k 
          
         
         
         
           p 
          
         
           k 
          
         
        
          ) 
         
        
          = 
         
         
          
          
            min 
           
          
             
           
          
          
          
            λ 
           
          
            ≥ 
           
          
            0 
           
          
         
        
          f 
         
        
          ( 
         
         
         
           w 
          
          
          
            ( 
           
          
            k 
           
          
            ) 
           
          
         
        
          + 
         
        
          λ 
         
         
         
           p 
          
         
           k 
          
         
        
          ) 
         
        
       
         f(w^{(k)} + \lambda_k p_k) = \min_{\lambda \geq 0} f(w^{(k)} + \lambda p_k) 
        
       
     f(w(k)+λkpk)=λ≥0minf(w(k)+λpk)
 (5) 置 
     
      
       
        
        
          w 
         
         
         
           ( 
          
         
           k 
          
         
           + 
          
         
           1 
          
         
           ) 
          
         
        
       
         = 
        
        
        
          w 
         
         
         
           ( 
          
         
           k 
          
         
           ) 
          
         
        
       
         + 
        
        
        
          λ 
         
        
          k 
         
        
        
        
          p 
         
        
          k 
         
        
       
      
        w^{(k+1)}=w^{(k)} + \lambda_kp_k 
       
      
    w(k+1)=w(k)+λkpk。
(6) 计算 
     
      
       
        
        
          g 
         
         
         
           k 
          
         
           + 
          
         
           1 
          
         
        
       
         = 
        
       
         g 
        
       
         ( 
        
        
        
          w 
         
         
         
           ( 
          
         
           k 
          
         
           + 
          
         
           1 
          
         
           ) 
          
         
        
       
         ) 
        
       
      
        g_{k+1} = g(w^{(k+1)}) 
       
      
    gk+1=g(w(k+1)),若 
     
      
       
       
         ∣ 
        
       
         ∣ 
        
        
        
          g 
         
         
         
           k 
          
         
           + 
          
         
           1 
          
         
        
       
         ∣ 
        
       
         ∣ 
        
       
         < 
        
       
         ϵ 
        
       
      
        ||g_{k+1} || < \epsilon 
       
      
    ∣∣gk+1∣∣<ϵ,则停止计算,得近似解 
     
      
       
        
        
          w 
         
        
          ∗ 
         
        
       
         = 
        
        
        
          w 
         
         
         
           ( 
          
         
           k 
          
         
           + 
          
         
           1 
          
         
           ) 
          
         
        
       
      
        w^*=w^{(k+1)} 
       
      
    w∗=w(k+1);否则,按式下式算出 
     
      
       
        
        
          B 
         
         
         
           k 
          
         
           + 
          
         
           1 
          
         
        
       
      
        B_{k+1} 
       
      
    Bk+1:
  
      
       
        
         
         
           B 
          
          
          
            k 
           
          
            + 
           
          
            1 
           
          
         
        
          = 
         
         
         
           B 
          
         
           k 
          
         
        
          + 
         
         
          
           
           
             y 
            
           
             k 
            
           
           
           
             y 
            
           
             k 
            
           
             T 
            
           
          
          
           
           
             y 
            
           
             k 
            
           
             T 
            
           
           
           
             δ 
            
           
             k 
            
           
          
         
        
          − 
         
         
          
           
           
             B 
            
           
             k 
            
           
           
           
             δ 
            
           
             k 
            
           
           
           
             δ 
            
           
             k 
            
           
             T 
            
           
           
           
             B 
            
           
             k 
            
           
          
          
           
           
             δ 
            
           
             k 
            
           
             T 
            
           
           
           
             B 
            
           
             k 
            
           
           
           
             δ 
            
           
             k 
            
           
          
         
        
       
         B_{k+1} = B_k + \frac{y_ky^T_k}{y_k^T\delta_k} - \frac{B_k\delta_k\delta_k^TB_k}{\delta_k^TB_k\delta_k} 
        
       
     Bk+1=Bk+ykTδkykykT−δkTBkδkBkδkδkTBk
 其中,
  
      
       
        
         
         
           y 
          
         
           k 
          
         
        
          = 
         
         
         
           g 
          
          
          
            k 
           
          
            + 
           
          
            1 
           
          
         
        
          − 
         
         
         
           g 
          
         
           k 
          
         
        
          , 
         
         
         
         
           δ 
          
         
           k 
          
         
        
          = 
         
         
         
           w 
          
          
          
            ( 
           
          
            k 
           
          
            + 
           
          
            1 
           
          
            ) 
           
          
         
        
          − 
         
         
         
           w 
          
          
          
            ( 
           
          
            k 
           
          
            ) 
           
          
         
        
       
         y_k=g_{k+1} - g_k,\quad \delta_k = w^{(k+1)} - w^{(k)} 
        
       
     yk=gk+1−gk,δk=w(k+1)−w(k)
 (7) 置 
     
      
       
       
         k 
        
       
         = 
        
       
         k 
        
       
         + 
        
       
         1 
        
       
      
        k=k+1 
       
      
    k=k+1,转(3)。
参考
- 统计学习方法
- 维基百科
- 十分钟机器学习 简博士














