LSTM 或 GRU 门如何学习专注于他们想要的任务?

人工智能 深度学习 训练 循环神经网络 长短期记忆 序列建模
2021-10-21 06:48:46

当我研究 GRU 和 LSTM 单元内部的计算方程时,我意识到虽然不同的门有不同的权重矩阵,但它们的整体结构是相同的。它们都是权重矩阵及其输入的点积,加上偏差,然后是学习的门控激活。现在,计算之间的差异取决于权重矩阵彼此不同,也就是说,这些权重矩阵专门用于专门处理诸如遗忘/保持等特定任务。

但是这些矩阵都是随机初始化的,而且在训练方案中似乎没有特殊的技巧来确保这些权重矩阵的学习方式使相关的门专门从事他们想要的任务。它们都是随着梯度下降不断更新的随机矩阵。

那么,例如,遗忘门是如何学习作为遗忘单元的呢?同样的问题也适用于其他人。我是否错过了这些网络培训的一部分?我们能说这些单元相互学习真正解开的功能吗?

1个回答

这取决于它们的计算顺序以及它们的用途。我将在此答案中指代 LSTM。

查看遗忘门,您可以看到它具有操纵细胞状态的能力。这使它能够强制忘记。假设(在训练之后)它看到了一个超级重要的输入,这意味着之前的一些数据是不相关的(比如说,就像一个句号)。这个遗忘门,虽然它可能不会强制遗忘,但有能力强制遗忘,并且很可能会学会这样做。

输入门最终添加到单元状态。这个门对单元状态没有直接影响(它不能像遗忘门那样将其设为 0),但它可以添加到它并以这种方式影响它。所以它是一个输入门。

输出门用于解释隐藏状态,并准备好与单元状态组合以在该时间步进行最终输出。

虽然这些门都使用 sigmoid 函数,都是随机初始化的,并且具有相同的维度,它们的输出用于什么以及它们的计算顺序使它们发挥了一定的作用。最初,他们不会适应这个角色,但从逻辑上讲,随着他们的学习,他们很可能会这样做。