一、背景:RNN的困境与门控机制的曙光
-
RNN的基本原理:
-
RNN的核心思想是引入循环连接,使网络具有“记忆”功能。
-
在时刻
t
,RNN接收当前输入x_t
和前一个时刻的隐藏状态h_{t-1}
。 -
通过一个共享的权重参数(
W
,U
,b
)计算当前时刻的隐藏状态h_t
:
h_t = tanh(W * x_t + U * h_{t-1} + b)
-
隐藏状态
h_t
包含了截止到时刻t
的序列信息,可用于预测输出y_t
(如词性标签)或传递给下一个时刻。
-
-
RNN的致命缺陷:梯度消失/爆炸
-
问题本质: RNN通过时间反向传播(BPTT
-