是一种高效计算梯度下降的方法。
Chain Rule(链式法则)

定义了一个loss function是所有training data的loss之和。

- 考虑某一个neuron的情况


- Forward Pass
z对w的偏微分就是输入x。

- Backward Pass



- Case1- Output Layer
假设两个红色的neuron已经是output layer

- Case2- Not Output Layer
假设现在红色的neuron并不是整个network的output,我们就需要和之前的步骤一样继续迭代,直至输出层。

实际上,Backward pass就是从输出层开始,反向计算
。

Summary




















