Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn., 8:229–256, 1992. PDF 下载链接

前面部分:【论文_1992】 REINFORCE » P1
文章目录
- 附录 A
- A.1. REINFORCE 算法的一些结论
- A.2. 回合式 REINFORCE 算法 的结论
 
- 附录 B
附录 A
本附录分别包含定理 1 和定理 2 关于 REINFORCE 和回合式 REINFORCE 算法的证明。除了文中介绍的符号外,我们还将一些感兴趣的集合符号化,
令 Y i Y_i Yi 表示第 i i i 个单元可能的输出值 y i y_i yi 的集合;
其中 X i X_i Xi 表示该单元的输入向量 x i {\bf x}^i xi 的可能值的集合。
虽然它不是一个关键的假设,我们让 Y i Y_i Yi 和 X i X_i Xi 自始至终都是离散集。
同样,我们让 I I I 表示 W \bf W W 的元素的索引集,使得 ( i , j ) ∈ I (i, j) \in I (i,j)∈I 当且仅当 w i j w_{ij} wij 是系统中的一个参数。
这里应当指出,为了简洁起见,本附录中所证明的所有断言都使用了一种约定,在这种约定中,每个未绑定的变量都被隐式地假定为在一组适当的值上被普遍量化。
例如,无论何时出现 i i i 和 j j j,它们都被认为是任意的(仅受 ( i , j ) ∈ I (i, j) \in I (i,j)∈I 的约束)
A.1. REINFORCE 算法的一些结论
事实 1:
∂ E { r ∣ W , x i } ∂ w i j = ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) \frac{\partial E\{r|{\bf W},{\bf x}^i\} }{\partial w_{ij}}=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i) ∂wij∂E{r∣W,xi}=ξ∈Yi∑E{r∣W,xi,yi=ξ}∂wij∂gi(ξ,wi,xi)
证明:
 根据可能的输出值  
     
      
       
        
        
          y 
         
        
          i 
         
        
       
      
        y_i 
       
      
    yi ,我们可以写
E { r ∣ W , x i } = ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } Pr { y i = ξ ∣ W , x i } = ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } g i ( ξ , w i , x i ) \begin{aligned}E\{r|{\bf W},{\bf x}^i\}&=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\text{Pr}\{y_i=\xi|{\bf W}, {\bf x}^i\}\\ &=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\textcolor{blue}{g_i}(\xi,\textcolor{blue}{{\bf w}^i}, {\bf x}^i)\end{aligned} E{r∣W,xi}=ξ∈Yi∑E{r∣W,xi,yi=ξ}Pr{yi=ξ∣W,xi}=ξ∈Yi∑E{r∣W,xi,yi=ξ}gi(ξ,wi,xi)
注意  
     
      
       
        
        
          y 
         
        
          i 
         
        
       
      
        y_i 
       
      
    yi 的值的指定使得  
     
      
       
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
       
      
        w_{ij} 
       
      
    wij 对  
     
      
       
       
         r 
        
       
      
        r 
       
      
    r 的最终值没有影响,即  
     
      
       
       
         E 
        
       
         { 
        
       
         r 
        
       
         ∣ 
        
       
         W 
        
       
         , 
        
        
        
          x 
         
        
          i 
         
        
       
         , 
        
        
        
          y 
         
        
          i 
         
        
       
         = 
        
       
         ξ 
        
       
         } 
        
       
      
        E\{r|{\bf W},{\bf x}^i,y_i=\xi\} 
       
      
    E{r∣W,xi,yi=ξ} 不依赖于  
     
      
       
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
       
      
        w_{ij} 
       
      
    wij。
 通过对最后一个方程两边对  
     
      
       
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
       
      
        w_{ij} 
       
      
    wij 求导得到结果
事实 2:
∑ ξ ∈ Y i ∂ g i ∂ w i j ( ξ , w i , x i ) = 0 \sum\limits_{\xi\in Y_i}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)=0 ξ∈Yi∑∂wij∂gi(ξ,wi,xi)=0
证明:
∑ ξ ∈ Y i g i ( ξ , w i , x i ) = ∑ ξ ∈ Y i Pr ( x = ξ , w i , x i ) = 1 \sum\limits_{\xi\in Y_i} g_i(\xi,{\bf w}^i, {\bf x}^i)=\sum\limits_{\xi\in Y_i} \text{Pr}( \textcolor{red}{x} =\xi,{\bf w}^i, {\bf x}^i)=1 ξ∈Yi∑gi(ξ,wi,xi)=ξ∈Yi∑Pr(x=ξ,wi,xi)=1
- 应该为 y ???
结果是对 w i j w_{ij} wij 求导。
引理 1: 对任意 REINFORCE 算法, 有:
E { Δ w i j ∣ W , x i } = α i j ∂ E { r ∣ W , x i } ∂ w i j E\{\Delta w_{ij}|{\bf W}, {\bf x}^i\}=\alpha_{ij}\frac{\partial E\{r|{\bf W},{\bf x}^i\}}{\partial w_{ij}} E{Δwij∣W,xi}=αij∂wij∂E{r∣W,xi}
证明: 首先注意,特征资格 characteristic eligibility 可以写为:
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
  
     
      
       
        
        
          e 
         
         
         
           i 
          
         
           j 
          
         
        
       
         = 
        
        
         
         
           ∂ 
          
         
           ln 
          
         
            
          
          
          
            g 
           
          
            i 
           
          
         
         
         
           ∂ 
          
          
          
            w 
           
           
           
             i 
            
           
             j 
            
           
          
         
        
       
         = 
        
        
        
          1 
         
         
         
           g 
          
         
           i 
          
         
        
        
         
         
           ∂ 
          
          
          
            g 
           
          
            i 
           
          
         
         
         
           ∂ 
          
          
          
            w 
           
           
           
             i 
            
           
             j 
            
           
          
         
        
       
      
        e_{ij}=\frac{\partial \ln g_i}{\partial w_{ij}}=\frac{1}{g_i}\frac{\partial g_i}{\partial w_{ij}} 
       
      
    eij=∂wij∂lngi=gi1∂wij∂gi
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
 尽管在  
     
      
       
        
        
          g 
         
        
          i 
         
        
       
         = 
        
       
         0 
        
       
      
        g_i=0 
       
      
    gi=0 时无法定义,但只要  
     
      
       
        
        
          Y 
         
        
          i 
         
        
       
      
        Y_i 
       
      
    Yi 是离散的,对于任何强化算法, 
     
      
       
       
         Δ 
        
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
       
      
        \Delta w_{ij} 
       
      
    Δwij 仍然是定义良好的。
 这是因为  
     
      
       
        
        
          g 
         
        
          i 
         
        
       
         ( 
        
       
         ξ 
        
       
         , 
        
        
        
          w 
         
        
          i 
         
        
       
         , 
        
        
        
          x 
         
        
          i 
         
        
       
         ) 
        
       
         = 
        
       
         0 
        
       
      
        g_i(\xi,{\bf w}^i, {\bf x}^i) = 0 
       
      
    gi(ξ,wi,xi)=0 意味着该值作为输出  
     
      
       
        
        
          y 
         
        
          i 
         
        
       
      
        y_i 
       
      
    yi 的值出现的概率为零。
E { Δ w i j ∣ W , x i } = ∑ ξ ∈ Y i E { Δ w i j ∣ W , x i , y i = ξ } Pr { y i = ξ ∣ W , x i } = ∑ ξ ∈ Y i E { α i j ( r − b i j ) g i ( ξ , w i , x i ) ∂ g i ∂ w i j ( ξ , w i , x i ) ∣ W , x i , y i = ξ } g i ( ξ , w i , x i ) = ∑ ξ ∈ Y i E { α i j ( r − b i j ) ∂ g i ∂ w i j ( ξ , w i , x i ) ∣ W , x i , y i = ξ } = α i j ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) ⏟ α i j ∂ E { r ∣ W , x i } ∂ w i j − α i j ∑ ξ ∈ Y i E { b i j ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) ⏟ = 0 \begin{aligned}E\{\Delta w_{ij}|{\bf W}, {\bf x}^i\}&=\sum\limits_{\xi\in Y_i}E\{\Delta w_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\text{Pr}\{y_i=\xi|{\bf W}, {\bf x}^i\}\\ &=\sum\limits_{\xi\in Y_i}E\Big\{\frac{\alpha_{ij}(r-b_{ij})}{g_i(\xi, {\bf w}^i, {\bf x}^i)}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)|{\bf W}, {\bf x}^i, y_i=\xi\Big\}g_i(\xi,{\bf w}^i, {\bf x}^i)\\ &=\sum\limits_{\xi\in Y_i}E\{\alpha_{ij}(r-b_{ij})\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)|{\bf W}, {\bf x}^i, y_i=\xi\}\\ &=\underbrace{\alpha_{ij}\sum\limits_{\xi\in Y_i}E\{r|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{\alpha_{ij}\frac{\partial E\{r|{\bf W}, {\bf x}^i\}}{\partial w_{ij}}}\\ &~~~~~~-\alpha_{ij}\underbrace{\sum\limits_{\xi\in Y_i}E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{=~0}\end{aligned} E{Δwij∣W,xi}=ξ∈Yi∑E{Δwij∣W,xi,yi=ξ}Pr{yi=ξ∣W,xi}=ξ∈Yi∑E{gi(ξ,wi,xi)αij(r−bij)∂wij∂gi(ξ,wi,xi)∣W,xi,yi=ξ}gi(ξ,wi,xi)=ξ∈Yi∑E{αij(r−bij)∂wij∂gi(ξ,wi,xi)∣W,xi,yi=ξ}=αij∂wij∂E{r∣W,xi} αijξ∈Yi∑E{r∣W,xi,yi=ξ}∂wij∂gi(ξ,wi,xi) −αij= 0 ξ∈Yi∑E{bij∣W,xi,yi=ξ}∂wij∂gi(ξ,wi,xi)
利用  
     
      
       
        
        
          α 
         
         
         
           i 
          
         
           j 
          
         
        
       
      
        \alpha_{ij} 
       
      
    αij 不依赖于输出  
     
      
       
        
        
          y 
         
        
          i 
         
        
       
      
        y_i 
       
      
    yi 的特定值这一事实;
 根据事实 1,最后一个表达式的第一项是  
     
      
       
        
        
          α 
         
         
         
           i 
          
         
           j 
          
         
        
        
         
         
           ∂ 
          
         
           E 
          
         
           { 
          
         
           r 
          
         
           ∣ 
          
         
           W 
          
         
           , 
          
          
          
            x 
           
          
            i 
           
          
         
           } 
          
         
         
         
           ∂ 
          
          
          
            w 
           
           
           
             i 
            
           
             j 
            
           
          
         
        
       
      
        \alpha_{ij}\frac{\partial E\{r|{\bf W}, {\bf x}^i\}}{\partial w_{ij}} 
       
      
    αij∂wij∂E{r∣W,xi}。
 考虑剩下的项。
因为 E { b i j ∣ W , x i , y i = ξ } = E { b i j ∣ W , x i } E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}=E\{b_{ij}|{\bf W}, {\bf x}^i\} E{bij∣W,xi,yi=ξ}=E{bij∣W,xi},根据假设,我们有
∑ ξ ∈ Y i E { b i j ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) = E { b i j ∣ W , x i } ∑ ξ ∈ Y i ∂ g i ∂ w i j ( ξ , w i , x i ) ⏟ = 0 = 0 \begin{aligned}&\sum\limits_{\xi\in Y_i}E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)\\ &=E\{b_{ij}|{\bf W}, {\bf x}^i\}\underbrace{\sum\limits_{\xi\in Y_i}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{=~0}\\ &=0\end{aligned} ξ∈Yi∑E{bij∣W,xi,yi=ξ}∂wij∂gi(ξ,wi,xi)=E{bij∣W,xi}= 0 ξ∈Yi∑∂wij∂gi(ξ,wi,xi)=0
由事实 2, 证毕。
事实 3:
∂ E { r ∣ W } ∂ w i j = ∑ x ∈ X i E { r ∣ W , x i = x } ∂ w i j Pr { x i = x ∣ W } \frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}=\sum\limits_{{\bf x}\in {\bf X}_i}\frac{E\{r|{\bf W}, {\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} ∂wij∂E{r∣W}=x∈Xi∑∂wijE{r∣W,xi=x}Pr{xi=x∣W}
证明: 对于可能的输入模式 x i {\bf x}^i xi,我们可以这样写
E { r ∣ W } = ∑ x ∈ X i E { r ∣ W , x i = x } Pr { x i = x ∣ W } E\{r|{\bf W}\}=\sum\limits_{{\bf x}\in {\bf X}_i}E\{r|{\bf W},{\bf x}^i={\bf x}\}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} E{r∣W}=x∈Xi∑E{r∣W,xi=x}Pr{xi=x∣W}
注意,权重  
     
      
       
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
       
      
        w_{ij} 
       
      
    wij 位于为确定  
     
      
       
        
        
          x 
         
        
          i 
         
        
       
      
        {\bf x}^i 
       
      
    xi 而执行的所有计算的下游。
 这意味着  
     
      
       
       
         Pr 
        
       
         { 
        
        
        
          x 
         
        
          i 
         
        
       
         = 
        
       
         x 
        
       
         ∣ 
        
       
         W 
        
       
         } 
        
       
      
        \text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} 
       
      
    Pr{xi=x∣W} 不依赖于  
     
      
       
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
       
      
        w_{ij} 
       
      
    wij ,因此结果是最后一个方程的两边同时除以  
     
      
       
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
       
      
        w_{ij} 
       
      
    wij 。
引理 2: 对于 任意的 REINFORCE 算法
E { Δ w i j ∣ W } = α i j ∂ E { r ∣ W } ∂ w i j E\{\Delta w_{ij}|{\bf W}\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}} E{Δwij∣W}=αij∂wij∂E{r∣W}
证明:
E { Δ w i j ∣ W } = ∑ x ∈ X i E { Δ w i j ∣ W , x i = x } Pr { x i = x ∣ W } = ∑ x ∈ X i α i j ∂ E { r ∣ W , x i = x } ∂ w i j Pr { x i = x ∣ W } = α i j ∑ x ∈ X i ∂ E { r ∣ W , x i = x } ∂ w i j Pr { x i = x ∣ W } α i j 不依赖单元输入 = α i j ∑ x ∈ X i ∂ E { r ∣ W } ∂ w i j 事实 3 从右往左 \begin{aligned}E\{\Delta w_{ij}|{\bf W}\} &=\sum\limits_{{\bf x}\in {\bf X}_i}E\{\Delta w_{ij}|{\bf W},{\bf x}^i={\bf x}\}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}\\ &=\sum\limits_{{\bf x}\in {\bf X}_i}\alpha_{ij}\frac{\partial E\{r|{\bf W},{\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}\\ &=\alpha_{ij}\sum\limits_{{\bf x}\in {\bf X}_i}\frac{\partial E\{r|{\bf W},{\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}~~~~~~\textcolor{blue}{\alpha_{ij}~不依赖单元输入}\\ &=\alpha_{ij}\sum\limits_{{\bf x}\in {\bf X}_i}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}~~~\textcolor{blue}{事实~ 3 ~~从右往左 }\end{aligned} E{Δwij∣W}=x∈Xi∑E{Δwij∣W,xi=x}Pr{xi=x∣W}=x∈Xi∑αij∂wij∂E{r∣W,xi=x}Pr{xi=x∣W}=αijx∈Xi∑∂wij∂E{r∣W,xi=x}Pr{xi=x∣W} αij 不依赖单元输入=αijx∈Xi∑∂wij∂E{r∣W} 事实 3 从右往左
其中第一个等式是通过对单元的可能输入模式计算条件概率得到的,
 第二个等式是根据引理 1 得出的,
 第三个等式是根据  
     
      
       
        
        
          α 
         
         
         
           i 
          
         
           j 
          
         
        
       
      
        \alpha_{ij} 
       
      
    αij 不依赖于单元输入的假设得出的,
 最后一个等式是根据事实 3 得出的。
建立最后一个结果是关键的一步,它就像引理 1 一样,除了对单元  
     
      
       
       
         i 
        
       
      
        i 
       
      
    i 的输入的条件概率已经从方程的两边去掉了。
 它涉及到两个量,不像引理 1,一般来说计算起来会很麻烦因为  
     
      
       
       
         Pr 
        
       
         { 
        
        
        
          x 
         
        
          i 
         
        
       
         = 
        
       
         x 
        
       
         ∣ 
        
       
         W 
        
       
         } 
        
       
      
        \text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} 
       
      
    Pr{xi=x∣W} 会很复杂。
 从这个引理可以很容易地得出我们的主要结论。
定理 1: 对于任何 REINFORCE 算法, 
     
      
       
       
         E 
        
       
         { 
        
       
         Δ 
        
       
         W 
        
       
         ∣ 
        
       
         W 
        
       
         } 
        
       
      
        E\{\Delta {\bf W}|{\bf W}\} 
       
      
    E{ΔW∣W} 和  
     
      
       
        
        
          ∇ 
         
        
          w 
         
        
       
         E 
        
       
         { 
        
       
         r 
        
       
         ∣ 
        
       
         W 
        
       
         } 
        
       
      
        \nabla _{\bf w}E\{r|{\bf W}\} 
       
      
    ∇wE{r∣W} 的内积是非负的。即  
     
      
       
       
         E 
        
       
         { 
        
       
         Δ 
        
       
         W 
        
       
         ∣ 
        
       
         W 
        
        
        
          } 
         
        
          T 
         
        
        
        
          ∇ 
         
        
          w 
         
        
       
         E 
        
       
         { 
        
       
         r 
        
       
         ∣ 
        
       
         W 
        
       
         } 
        
       
         ≥ 
        
       
         0 
        
       
      
        E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\} ≥ 0 
       
      
    E{ΔW∣W}T∇wE{r∣W}≥0
 更进一步,如果对所有  
     
      
       
       
         i 
        
       
      
        i 
       
      
    i 和  
     
      
       
       
         j 
        
       
      
        j 
       
      
    j, 都有  
     
      
       
        
        
          α 
         
         
         
           i 
          
         
           j 
          
         
        
       
      
        \alpha_{ij} 
       
      
    αij > 0,那么只有当  
     
      
       
        
        
          ∇ 
         
        
          w 
         
        
       
         E 
        
       
         { 
        
       
         r 
        
       
         ∣ 
        
       
         W 
        
       
         } 
        
       
         = 
        
       
         0 
        
       
      
        \nabla _{\bf w}E\{r|{\bf W}\}=0 
       
      
    ∇wE{r∣W}=0 时,这个内积才为 0。
E { Δ W ∣ W } T ∇ w E { r ∣ W } = ∑ ( i , j ) ∈ I E { Δ w i j ∣ W } E { r ∣ W } ∂ w i j = ∑ ( i , j ) ∈ I α i j ( E { r ∣ W } ∂ w i j ) 2 \begin{aligned}&E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\}\\ &=\sum\limits_{(i,j)\in I}E\{\Delta w_{ij}|{\bf W}\}\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\\ &=\sum\limits_{(i,j)\in I}\alpha_{ij}\Big(\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\Big)^2\end{aligned} E{ΔW∣W}T∇wE{r∣W}=(i,j)∈I∑E{Δwij∣W}∂wijE{r∣W}=(i,j)∈I∑αij(∂wijE{r∣W})2
根据引理 2,即得结果。
A.2. 回合式 REINFORCE 算法 的结论
对回合式 REINFORCE 算法 的分析是基于 unfolds -in-time 映射,它将原始网络  
     
      
       
       
         N 
        
       
      
        N 
       
      
    N 与其 unfolds -in-time无环网络  
     
      
       
        
        
          N 
         
        
          ∗ 
         
        
       
      
        N^* 
       
      
    N∗ 相关联。
 关键的观察是,让  
     
      
       
       
         N 
        
       
      
        N 
       
      
    N 面对它的学习问题相当于让  
     
      
       
        
        
          N 
         
        
          ∗ 
         
        
       
      
        N^* 
       
      
    N∗ 面对一个相应的联想学习问题。
 让  
     
      
       
        
        
          W 
         
        
          ∗ 
         
        
       
      
        {\bf W}^* 
       
      
    W∗ 表示  
     
      
       
        
        
          N 
         
        
          ∗ 
         
        
       
      
        N^* 
       
      
    N∗ 的权重矩阵,其单个组件的权量表示为  
     
      
       
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
          t 
         
        
       
      
        w_{ij}^t 
       
      
    wijt。
  
     
      
       
        
        
          N 
         
        
          ∗ 
         
        
       
      
        N^* 
       
      
    N∗ 中的权重  
     
      
       
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
          t 
         
        
       
      
        w_{ij}^t 
       
      
    wijt 对应于  
     
      
       
       
         N 
        
       
      
        N 
       
      
    N 中 在 第  
     
      
       
       
         t 
        
       
      
        t 
       
      
    t 个时间步的权重  
     
      
       
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
       
      
        w_{ij} 
       
      
    wij,因此对所有  
     
      
       
       
         i 
        
       
         , 
        
       
         j 
        
       
         , 
        
       
         t 
        
       
      
        i,j,t 
       
      
    i,j,t, 有  
     
      
       
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
          t 
         
        
       
         = 
        
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
       
      
        w_{ij}^t=w_{ij} 
       
      
    wijt=wij。
 因为这些网络之间的通信,需要注意的是,指定  
     
      
       
       
         W 
        
       
      
        \bf W 
       
      
    W 相当于指定  
     
      
       
        
        
          W 
         
        
          ∗ 
         
        
       
      
        {\bf W}^* 
       
      
    W∗,
 同时,学习问题之间的对应关系,我们可以考虑强化  
     
      
       
       
         r 
        
       
      
        r 
       
      
    r 对于这两个问题是一样的。
事实 4:
∂ E { r ∣ W } ∂ w i j = ∑ t = 1 k ∂ E { r ∣ W ∗ } ∂ w i j t \frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t} ∂wij∂E{r∣W}=t=1∑k∂wijt∂E{r∣W∗}
证明: 根据链式法则
∂ E { r ∣ W } ∂ w i j = ∑ t = 1 k ∂ E { r ∣ W } ∂ w i j t ∂ w i j t ∂ w i j = ∑ t = 1 k ∂ E { r ∣ W } ∂ w i j t = ∑ t = 1 k ∂ E { r ∣ W ∗ } ∂ w i j t \begin{aligned}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}&=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}^t}\frac{\partial w_{ij}^t}{\partial w_{ij}}\\ &=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}^t}\\ &=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t}\end{aligned} ∂wij∂E{r∣W}=t=1∑k∂wijt∂E{r∣W}∂wij∂wijt=t=1∑k∂wijt∂E{r∣W}=t=1∑k∂wijt∂E{r∣W∗}
因为 对于所有的 t t t, 都有 w i j t = w i j w_{ij}^t=w_{ij} wijt=wij
引理 3. 对任意 回合式 REINFORCE 算法
E { Δ w i j ∣ W } = α i j ∂ E { r ∣ W } ∂ w i j E\{\Delta w_{ij}|{\bf W}\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}} E{Δwij∣W}=αij∂wij∂E{r∣W}
证明:
 令  
     
      
       
       
         Δ 
        
       
         w 
        
       
         = 
        
        
        
          α 
         
         
         
           i 
          
         
           j 
          
         
        
       
         ( 
        
       
         r 
        
       
         − 
        
        
        
          b 
         
         
         
           i 
          
         
           j 
          
         
        
       
         ) 
        
        
        
          e 
         
         
         
           i 
          
         
           j 
          
         
        
          t 
         
        
       
      
        \Delta w= \alpha_{ij}(r-b_{ij})e_{ij}^t 
       
      
    Δw=αij(r−bij)eijt,使  
     
      
       
       
         Δ 
        
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
       
         = 
        
        
        
          ∑ 
         
         
         
           t 
          
         
           = 
          
         
           1 
          
         
        
          k 
         
        
       
         Δ 
        
        
        
          w 
         
         
         
           i 
          
         
           j 
          
         
        
          t 
         
        
       
      
        \Delta w_{ij}= \sum\limits_{t=1}^k\Delta w_{ij}^t 
       
      
    Δwij=t=1∑kΔwijt 。
 注意,这表示的是  
     
      
       
        
        
          N 
         
        
          ∗ 
         
        
       
      
        N^* 
       
      
    N∗ 中的 REINFORCE 算法,因此根据引理 2
E { Δ w i j t ∣ W ∗ } = α i j ∂ E { r ∣ W ∗ } ∂ w i j t E\{\Delta w_{ij}^t|{\bf W}^*\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t} E{Δwijt∣W∗}=αij∂wijt∂E{r∣W∗}
E { Δ w i j ∣ W } = E { ∑ t = 1 k Δ w i j t ∣ W ∗ } = ∑ t = 1 k E { Δ w i j t ∣ W ∗ } = ∑ t = 1 k α i j ∂ E { r ∣ W ∗ } ∂ w i j t = α i j ∂ E { r ∣ W } ∂ w i j \begin{aligned}E\{\Delta w_{ij}|{\bf W}\}&=E\Big\{\sum\limits_{t=1}^k\Delta w_{ij}^t|{\bf W}^*\Big\}\\ &=\sum\limits_{t=1}^kE\{\Delta w_{ij}^t|{\bf W}^*\}\\ &=\sum\limits_{t=1}^k\alpha_{ij}\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t}\\ &=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}\end{aligned} E{Δwij∣W}=E{t=1∑kΔwijt∣W∗}=t=1∑kE{Δwijt∣W∗}=t=1∑kαij∂wijt∂E{r∣W∗}=αij∂wij∂E{r∣W}
最后一个等式来自事实 4。右 ——> 左
定理 2: 和 定理 1 完全一样
 对于任何 回合式 REINFORCE 算法, 
     
      
       
       
         E 
        
       
         { 
        
       
         Δ 
        
       
         W 
        
       
         ∣ 
        
       
         W 
        
       
         } 
        
       
      
        E\{\Delta {\bf W}|{\bf W}\} 
       
      
    E{ΔW∣W} 和  
     
      
       
        
        
          ∇ 
         
        
          w 
         
        
       
         E 
        
       
         { 
        
       
         r 
        
       
         ∣ 
        
       
         W 
        
       
         } 
        
       
      
        \nabla _{\bf w}E\{r|{\bf W}\} 
       
      
    ∇wE{r∣W} 的内积是非负的。
 更进一步,如果对所有  
     
      
       
       
         i 
        
       
      
        i 
       
      
    i 和  
     
      
       
       
         j 
        
       
      
        j 
       
      
    j, 都有  
     
      
       
        
        
          α 
         
         
         
           i 
          
         
           j 
          
         
        
       
      
        \alpha_{ij} 
       
      
    αij > 0,那么只有当  
     
      
       
        
        
          ∇ 
         
        
          w 
         
        
       
         E 
        
       
         { 
        
       
         r 
        
       
         ∣ 
        
       
         W 
        
       
         } 
        
       
         = 
        
       
         0 
        
       
      
        \nabla _{\bf w}E\{r|{\bf W}\}=0 
       
      
    ∇wE{r∣W}=0 时,这个内积才为 0。
证明:
E { Δ W ∣ W } T ∇ w E { r ∣ W } = ∑ ( i , j ) ∈ I E { Δ w i j ∣ W } E { r ∣ W } ∂ w i j = ∑ ( i , j ) ∈ I α i j ( E { r ∣ W } ∂ w i j ) 2 \begin{aligned}E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\}&=\sum\limits_{(i,j)\in I}E\{\Delta w_{ij}|{\bf W}\}\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\\ &=\sum\limits_{(i,j)\in I}\alpha_{ij}\Big(\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\Big)^2\end{aligned} E{ΔW∣W}T∇wE{r∣W}=(i,j)∈I∑E{Δwij∣W}∂wijE{r∣W}=(i,j)∈I∑αij(∂wijE{r∣W})2
根据引理 3,即得结果。
注意定理 2 的证明和定理 1 的证明是一样的。
 这是因为定理 1 使用引理 2 ,定理 2 使用引理 3,两个引理都有相同的结论。
附录 B
本附录专门用于证明以下结果:
命题 1 假设概率质量或密度函数 g g g 有这样的形式:
g ( y , μ , θ 2 , ⋯ , θ k ) = exp  [ Q ( μ , θ 2 , ⋯ , θ k ) ] y + D ( μ , θ 2 , ⋯ , θ k ) + S ( y ) g(y, \mu, \theta_2, \cdots, \theta_k)=\exp[Q(\mu,\theta_2,\cdots,\theta_k)]y+D(\mu,\theta_2,\cdots,\theta_k)+S(y) g(y,μ,θ2,⋯,θk)=exp[Q(μ,θ2,⋯,θk)]y+D(μ,θ2,⋯,θk)+S(y)
Q , D , S Q,D,S Q,D,S 为函数, μ , θ 2 , ⋯ , θ k \mu,\theta_2,\cdots,\theta_k μ,θ2,⋯,θk 为参数。 μ \mu μ 是分布的均值。
∂ ln  g ∂ μ = y − μ σ 2 \frac{\partial \ln g}{\partial \mu}=\frac{y-\mu}{\sigma^2} ∂μ∂lng=σ2y−μ
其中 σ 2 \sigma^2 σ2 是分布的方差
————————————
 整理的 :
 目标: 证明  
     
      
       
       
         μ 
        
       
      
        \mu 
       
      
    μ 的 characteristic eligibility  
     
      
       
        
         
         
           ∂ 
          
         
           ln 
          
         
            
          
         
           g 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
         = 
        
        
         
         
           y 
          
         
           − 
          
         
           μ 
          
         
         
         
           σ 
          
         
           2 
          
         
        
       
      
        \frac{\partial \ln g}{\partial \mu}=\frac{y-\mu}{\sigma^2} 
       
      
    ∂μ∂lng=σ2y−μ
其中 g ( y , μ , θ 2 , ⋯ , θ k ) = exp  [ Q ( μ , θ 2 , ⋯ , θ k ) ] y + D ( μ , θ 2 , ⋯ , θ k ) + S ( y ) g(y, \mu, \theta_2, \cdots, \theta_k)=\exp[Q(\mu,\theta_2,\cdots,\theta_k)]y+D(\mu,\theta_2,\cdots,\theta_k)+S(y) g(y,μ,θ2,⋯,θk)=exp[Q(μ,θ2,⋯,θk)]y+D(μ,θ2,⋯,θk)+S(y)
输出 y y y 是由密度函数 g g g 确定的
令  
     
      
       
       
         α 
        
       
         = 
        
        
         
         
           ∂ 
          
         
           Q 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
      
        \alpha=\frac{\partial Q}{\partial \mu} 
       
      
    α=∂μ∂Q 和  
     
      
       
       
         β 
        
       
         = 
        
        
         
         
           ∂ 
          
         
           D 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
      
        β= \frac{\partial D}{\partial \mu} 
       
      
    β=∂μ∂D
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
  
     
      
       
        
         
         
           ∂ 
          
         
           ln 
          
         
            
          
         
           g 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
         = 
        
        
         
         
           ∂ 
          
         
           Q 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
         y 
        
       
         + 
        
        
         
         
           ∂ 
          
         
           D 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
         = 
        
       
         α 
        
       
         y 
        
       
         + 
        
       
         β 
        
       
      
        \frac{\partial \ln g}{\partial \mu}=\frac{\partial Q}{\partial \mu}y+\frac{\partial D}{\partial \mu}=\alpha y+\beta 
       
      
    ∂μ∂lng=∂μ∂Qy+∂μ∂D=αy+β
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
————————————
 原文:
 证明:这里我们只考虑概率质量函数的情况,但密度函数可以给出相应的参数。
设 Y 是 g 确定的分布。
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
  
     
      
       
        
        
          ∑ 
         
         
         
           y 
          
         
           ∈ 
          
         
           Y 
          
         
        
        
        
          g 
         
        
        
         
         
           ∂ 
          
         
           ln 
          
         
            
          
         
           g 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
         = 
        
        
        
          ∑ 
         
         
         
           y 
          
         
           ∈ 
          
         
           Y 
          
         
        
        
         
         
           ∂ 
          
         
           g 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
         = 
        
        
        
          ∂ 
         
         
         
           ∂ 
          
         
           μ 
          
         
        
        
        
          ∑ 
         
         
         
           y 
          
         
           ∈ 
          
         
           Y 
          
         
        
       
         g 
        
       
         = 
        
       
         0 
        
       
                    
        
       
         ( 
        
       
         15 
        
       
         ) 
        
       
      
        \sum\limits_{y\in Y}\textcolor{blue}{g}\frac{\partial \ln g}{\partial \mu}=\sum\limits_{y\in Y}\frac{\partial g}{\partial \mu}=\frac{\partial }{\partial \mu}\sum\limits_{y\in Y}g=0~~~~~~~~~~(15) 
       
      
    y∈Y∑g∂μ∂lng=y∈Y∑∂μ∂g=∂μ∂y∈Y∑g=0          (15)
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
 由于  
     
      
       
        
        
          ∑ 
         
         
         
           y 
          
         
           ∈ 
          
         
           Y 
          
         
        
       
         g 
        
       
         = 
        
       
         1 
        
       
      
        \sum\limits_{y\in Y}g=1 
       
      
    y∈Y∑g=1, 结合  
     
      
       
       
         μ 
        
       
         = 
        
        
        
          ∑ 
         
         
         
           y 
          
         
           ∈ 
          
         
           Y 
          
         
        
       
         y 
        
       
         g 
        
       
      
        \mu=\sum\limits_{y\in Y}yg 
       
      
    μ=y∈Y∑yg
  
     
      
       
        
         
          
           
            
             
             
               ∑ 
              
              
              
                y 
               
              
                ∈ 
               
              
                Y 
               
              
             
             
             
               ( 
              
             
               y 
              
             
               − 
              
             
               μ 
              
             
               ) 
              
             
               g 
              
             
             
              
              
                ∂ 
               
              
                ln 
               
              
                 
               
              
                g 
               
              
              
              
                ∂ 
               
              
                μ 
               
              
             
            
           
          
          
           
            
             
            
              = 
             
             
             
               ∑ 
              
              
              
                y 
               
              
                ∈ 
               
              
                Y 
               
              
             
            
              y 
             
            
              g 
             
             
              
              
                ∂ 
               
              
                ln 
               
              
                 
               
              
                g 
               
              
              
              
                ∂ 
               
              
                μ 
               
              
             
            
              − 
             
            
              μ 
             
             
              
               
                
                
                  ∑ 
                 
                 
                 
                   y 
                  
                 
                   ∈ 
                  
                 
                   Y 
                  
                 
                
               
                 g 
                
                
                 
                 
                   ∂ 
                  
                 
                   ln 
                  
                 
                    
                  
                 
                   g 
                  
                 
                 
                 
                   ∂ 
                  
                 
                   μ 
                  
                 
                
               
              
                ⏟ 
               
              
              
              
                由式  
               
              
                ( 
               
              
                15 
               
              
                ) 
               
              
                , 
               
              
                为  
               
              
                0 
               
              
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              = 
             
             
             
               ∑ 
              
              
              
                y 
               
              
                ∈ 
               
              
                Y 
               
              
             
            
              y 
             
             
              
              
                ∂ 
               
              
                g 
               
              
              
              
                ∂ 
               
              
                μ 
               
              
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              = 
             
             
             
               ∂ 
              
              
              
                ∂ 
               
              
                μ 
               
              
             
             
              
               
                
                
                  ∑ 
                 
                 
                 
                   y 
                  
                 
                   ∈ 
                  
                 
                   Y 
                  
                 
                
               
                 y 
                
               
                 g 
                
               
              
                ⏟ 
               
              
              
              
                = 
               
              
                  
               
              
                μ 
               
              
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              = 
             
            
              1 
             
            
           
          
         
        
       
                    
        
       
         ( 
        
       
         16 
        
       
         ) 
        
       
      
        \begin{aligned}\sum\limits_{y\in Y}\textcolor{blue}{(y-\mu)g}\frac{\partial \ln g}{\partial \mu}&=\sum\limits_{y\in Y}yg\frac{\partial \ln g}{\partial \mu}-\mu\underbrace{\sum\limits_{y\in Y} g\frac{\partial \ln g}{\partial \mu}}_{由 式 ~(15), 为~ 0}\\ &=\sum\limits_{y\in Y}y\frac{\partial g}{\partial \mu}\\ &=\frac{\partial }{\partial \mu}\underbrace{\sum\limits_{y\in Y}yg}_{=~\mu}\\ &=1\end{aligned}~~~~~~~~~~(16) 
       
      
    y∈Y∑(y−μ)g∂μ∂lng=y∈Y∑yg∂μ∂lng−μ由式 (15),为 0 
                          
                          
                         y∈Y∑g∂μ∂lng=y∈Y∑y∂μ∂g=∂μ∂= μ 
                          
                          
                         y∈Y∑yg=1          (16)
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
 现在引入简写符号  
     
      
       
       
         α 
        
       
         = 
        
        
         
         
           ∂ 
          
         
           Q 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
      
        \alpha=\frac{\partial Q}{\partial \mu} 
       
      
    α=∂μ∂Q 和  
     
      
       
       
         β 
        
       
         = 
        
        
         
         
           ∂ 
          
         
           D 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
      
        β= \frac{\partial D}{\partial \mu} 
       
      
    β=∂μ∂D。从命题的假设, 我们有
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
  
     
      
       
        
         
         
           ∂ 
          
         
           ln 
          
         
            
          
         
           g 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
         = 
        
        
         
         
           ∂ 
          
         
           Q 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
         y 
        
       
         + 
        
        
         
         
           ∂ 
          
         
           D 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
         = 
        
       
         α 
        
       
         y 
        
       
         + 
        
       
         β 
        
       
      
        \frac{\partial \ln g}{\partial \mu}=\frac{\partial Q}{\partial \mu}y+\frac{\partial D}{\partial \mu}=\alpha y+\beta 
       
      
    ∂μ∂lng=∂μ∂Qy+∂μ∂D=αy+β
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
 则
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
  
     
      
       
        
        
          ∑ 
         
         
         
           y 
          
         
           ∈ 
          
         
           Y 
          
         
        
        
        
          g 
         
        
        
         
         
           ∂ 
          
         
           ln 
          
         
            
          
         
           g 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
         = 
        
        
        
          ∑ 
         
         
         
           y 
          
         
           ∈ 
          
         
           Y 
          
         
        
       
         ( 
        
       
         α 
        
       
         y 
        
       
         + 
        
       
         β 
        
       
         ) 
        
       
         g 
        
       
         = 
        
       
         α 
        
        
        
          ∑ 
         
         
         
           y 
          
         
           ∈ 
          
         
           Y 
          
         
        
       
         y 
        
       
         g 
        
       
         + 
        
       
         β 
        
        
        
          ∑ 
         
         
         
           y 
          
         
           ∈ 
          
         
           Y 
          
         
        
       
         g 
        
       
         = 
        
        
         
          
          
            α 
           
          
            μ 
           
          
            + 
           
          
            β 
           
          
         
           ⏟ 
          
         
         
         
           根据式  
          
         
           ( 
          
         
           15 
          
         
           ) 
          
         
           , 
          
         
           = 
          
         
             
          
         
           0 
          
         
        
       
                    
        
       
         ( 
        
       
         17 
        
       
         ) 
        
       
      
        \sum\limits_{y\in Y}\textcolor{blue}{g}\frac{\partial \ln g}{\partial \mu}=\sum\limits_{y\in Y}(\alpha y+\beta)g=\alpha \sum\limits_{y\in Y}yg+\beta\sum\limits_{y\in Y}g=\underbrace{\alpha \mu +\beta}_{根据 式 ~(15) ,=~0}~~~~~~~~~~(17) 
       
      
    y∈Y∑g∂μ∂lng=y∈Y∑(αy+β)g=αy∈Y∑yg+βy∈Y∑g=根据式 (15),= 0 
                  
                  
                 αμ+β          (17)
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
 且
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
  
     
      
       
        
         
          
           
            
             
             
               ∑ 
              
              
              
                y 
               
              
                ∈ 
               
              
                Y 
               
              
             
             
             
               ( 
              
             
               y 
              
             
               − 
              
             
               μ 
              
             
               ) 
              
             
               g 
              
             
             
              
              
                ∂ 
               
              
                ln 
               
              
                 
               
              
                g 
               
              
              
              
                ∂ 
               
              
                μ 
               
              
             
            
           
          
          
           
            
             
            
              = 
             
             
             
               ∑ 
              
              
              
                y 
               
              
                ∈ 
               
              
                Y 
               
              
             
            
              ( 
             
            
              y 
             
            
              − 
             
            
              μ 
             
            
              ) 
             
            
              ( 
             
            
              α 
             
            
              y 
             
            
              + 
             
            
              β 
             
            
              ) 
             
            
              g 
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              = 
             
             
             
               ∑ 
              
              
              
                y 
               
              
                ∈ 
               
              
                Y 
               
              
             
            
              ( 
             
            
              y 
             
            
              − 
             
            
              μ 
             
            
              ) 
             
            
              [ 
             
            
              α 
             
            
              ( 
             
            
              y 
             
            
              − 
             
            
              μ 
             
            
              ) 
             
            
              + 
             
            
              α 
             
            
              μ 
             
            
              + 
             
            
              β 
             
            
              ] 
             
            
              g 
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              = 
             
            
              α 
             
             
             
               ∑ 
              
              
              
                y 
               
              
                ∈ 
               
              
                Y 
               
              
             
            
              ( 
             
            
              y 
             
            
              − 
             
            
              μ 
             
             
             
               ) 
              
             
               2 
              
             
            
              g 
             
            
              + 
             
            
              ( 
             
            
              α 
             
            
              μ 
             
            
              + 
             
            
              β 
             
            
              ) 
             
             
              
               
                
                
                  ∑ 
                 
                 
                 
                   y 
                  
                 
                   ∈ 
                  
                 
                   Y 
                  
                 
                
               
                 ( 
                
               
                 y 
                
               
                 − 
                
               
                 μ 
                
               
                 ) 
                
               
                 g 
                
               
              
                ⏟ 
               
              
              
              
                = 
               
              
                  
               
              
                0 
               
              
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              = 
             
             
              
               
               
                 α 
                
                
                
                  σ 
                 
                
                  2 
                 
                
               
              
                ⏟ 
               
              
              
              
                根据式  
               
              
                ( 
               
              
                16 
               
              
                ) 
               
              
                , 
               
              
                = 
               
              
                  
               
              
                1 
               
              
             
            
           
          
         
        
       
                    
        
       
         ( 
        
       
         18 
        
       
         ) 
        
       
      
        \begin{aligned}\sum\limits_{y\in Y}\textcolor{blue}{(y-\mu)g}\frac{\partial \ln g}{\partial \mu}&=\sum\limits_{y\in Y}(y-\mu)(\alpha y+\beta)g\\ &=\sum\limits_{y\in Y}(y-\mu)[\alpha(y-\mu)+\alpha \mu+\beta]g\\ &=\alpha\sum\limits_{y\in Y}(y-\mu)^2g+(\alpha \mu +\beta)\underbrace{\sum\limits_{y\in Y}(y-\mu)g}_{=~0}\\ &=\underbrace{\alpha \sigma^2}_{根据 式 ~(16) ,=~1}\end{aligned}~~~~~~~~~~(18) 
       
      
    y∈Y∑(y−μ)g∂μ∂lng=y∈Y∑(y−μ)(αy+β)g=y∈Y∑(y−μ)[α(y−μ)+αμ+β]g=αy∈Y∑(y−μ)2g+(αμ+β)= 0 
                          
                          
                         y∈Y∑(y−μ)g=根据式 (16),= 1 
                          
                          
                         ασ2          (18)
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
 联合 式 (15)-(18),有
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
  
     
      
       
       
         α 
        
       
         μ 
        
       
         + 
        
       
         β 
        
       
         = 
        
       
         0 
        
       
      
        \alpha\mu+\beta=0 
       
      
    αμ+β=0
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
  
     
      
       
       
         α 
        
        
        
          σ 
         
        
          2 
         
        
       
         = 
        
       
         1 
        
       
      
        \alpha\sigma^2=1 
       
      
    ασ2=1
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
 则有  
     
      
       
       
         α 
        
       
         = 
        
        
        
          1 
         
         
         
           σ 
          
         
           2 
          
         
        
       
         , 
        
       
             
        
       
         β 
        
       
         = 
        
       
         − 
        
       
         α 
        
       
         μ 
        
       
         = 
        
       
         − 
        
        
        
          μ 
         
         
         
           σ 
          
         
           2 
          
         
        
       
      
        \alpha=\frac{1}{\sigma^2}, ~~~\beta=-\alpha\mu=-\frac{\mu}{\sigma^2} 
       
      
    α=σ21,   β=−αμ=−σ2μ
  
     
      
       
       
           
        
       
      
        ~ 
       
      
     
  
     
      
       
        
         
         
           ∂ 
          
         
           ln 
          
         
            
          
         
           g 
          
         
           ( 
          
         
           y 
          
         
           , 
          
         
           μ 
          
         
           , 
          
          
          
            θ 
           
          
            2 
           
          
         
           , 
          
         
           ⋯ 
           
         
           , 
          
          
          
            θ 
           
          
            k 
           
          
         
           ) 
          
         
         
         
           ∂ 
          
         
           μ 
          
         
        
       
         = 
        
        
        
          1 
         
         
         
           σ 
          
         
           2 
          
         
        
       
         y 
        
       
         − 
        
        
        
          μ 
         
         
         
           σ 
          
         
           2 
          
         
        
       
         = 
        
        
         
         
           y 
          
         
           − 
          
         
           μ 
          
         
         
         
           σ 
          
         
           2 
          
         
        
       
      
        \frac{\partial \ln g(y,\mu,\theta_2,\cdots,\theta_k)}{\partial \mu}=\frac{1}{\sigma^2}y-\frac{\mu}{\sigma^2}=\frac{y-\mu}{\sigma^2} 
       
      
    ∂μ∂lng(y,μ,θ2,⋯,θk)=σ21y−σ2μ=σ2y−μ



















