本节课主要介绍了Adaptive Learning Rate的基本思想和方法。通过使用Adaptive Learning Rate的策略,在训练深度神经网络时程序能实现在不同参数、不同iteration中,学习率不同。
 本节课涉及到的算法或策略有:Adgrad、RMSProp、Adam、Learning Rate Decay、Warm Up。
 本节课参考的资料有:
 MIT-Deep Learning:https://www.deeplearningbook.org/
 Adam:https://arxiv.org/pdf/1412.6980.pdf
 Residual Network:https://arxiv.org/abs/1512.03385
 Transformer:https://arxiv.org/abs/1706.03762
 RAdam:https://arxiv.org/abs/1908.03265

 
 
 
 
 
 
 
 
 


















