数据挖掘 - LSTM RNN遗忘门是如何计算的？ - 吾爱随笔录

LSTM RNN遗忘门是如何计算的？

数据挖掘深度学习 lstm

2022-02-11 09:07:21

我知道 LSTM 循环神经网络有一个遗忘门、输入门和输出门。

但是，我不明白下面的等式如何计算“忘记”信息（来自 Chris Olah 的LSTM 帖子）

这个遗忘门如何决定从先前的单元状态中丢弃哪些信息？换句话说，忘记了什么。

在我看来，这个等式只需要 $x_t$ 从当前状态和 $h_{t-1}$ 从之前的状态。

有人能解释一下这个方程是如何作为一个遗忘门来保留或丢弃细胞状态的吗？

1个回答

的方程和值 $f_t$ 本身并不能完全解释门。您需要查看下一步的第一个术语：

$C_t = f_t \odot C_{t-1} + i_t \odot \bar{C}_{t}$

向量 $f_t$ 即遗忘门的输出，用作与前一个单元状态的元素相乘 $C_{t-1}$ . 正是在这个阶段，个体的元素 $C$ 被“记住”或“被遗忘”。

由于 sigmoid 函数，向量 $f_t$ 表现得像每个元素的二元分类器，饱和值倾向于选择不修改 $C$ 在所有（价值 $1$ ）或“忘记”之前的值是什么（值 $0$ ）。当然中间值也是可能的，简单地记住和忘记值之间的类比就不那么直接了。

与遗忘或记忆的类比有助于理解在多个时间步上保留梯度的改进。对于任何步骤，其中一个元素 $f_t$ 接近 $1$ （因此先前时间步长的影响被“记住”），然后相应的梯度元素从 $\nabla_{\theta} C_{t}$ 到 $\nabla_{\theta} C_{t-1}$ 保持不变，避免在更简单的 RNN 架构中看到的梯度损失（尤其是与饱和值相关的）。一旦前一个元素在 $C$ 被“遗忘”，则时间步之间的误差梯度连接被切断。

其它你可能感兴趣的问题

上一篇如何根据输入的 python 数据框绘制线图？下一篇预处理后如何缩小预测