人工智能 - LSTM 和 GRU 有什么区别？ - 吾爱随笔录

人工智能比较循环神经网络长短期记忆门控循环单元

2021-10-21 07:55:58

我一直在阅读 LSTM 和 GRU，它们是循环神经网络 (RNN)。两者之间的区别在于它们拥有的门的数量和特定类型。GRU 有一个更新门，其作用类似于LSTM中的输入和遗忘门的作用。

这是一个说明这两个单元（或 RNN）的图表。

相对于 vanilla RNN，LSTM 有更多的“旋钮”或参数。那么，当我们通过 LSTM 模型对神经网络有更多的控制权时，为什么还要使用 GRU？

这里有两个更具体的问题。

1个回答

在同样的问题上，有时 GRU 更好，有时 LSTM 更好。

简而言之，拥有更多参数（更多“旋钮”）并不总是一件好事。训练过程需要学习这些参数。除其他问题外，过度拟合的可能性更高。

这些参数在 GRU 或 LSTM 中被分配了特定的角色，因此如果该角色对于特定的学习挑战不太重要，那么让系统尝试为它们学习值可能是浪费甚至适得其反。

找出 LSTM 在问题上是否优于 GRU 的唯一方法是超参数搜索。不幸的是，您不能简单地将一个换成另一个并进行测试，因为优化 LSTM 解决方案的单元数将不同于优化 GRU 的单元数。

什么时候会在门控循环单元 (GRU) 上使用长短期记忆 (LSTM)？

当它通过实验证明更好时。在某些问题域中，这可能已建立，您可以检查。但是，在其他问题领域中，如果 GRU 或 LSTM 中的任何一个都可以很好地解决问题（并且 LSTM 或 GRU 的优势不是工作的重点），那么它可能就不是那么清楚了。

其它你可能感兴趣的问题