LSTM 和 GRU 有什么区别?

人工智能 比较 循环神经网络 长短期记忆 门控循环单元
2021-10-21 07:55:58

我一直在阅读 LSTM 和 GRU,它们是循环神经网络 (RNN)。两者之间的区别在于它们拥有的门的数量和特定类型。GRU 有一个更新门,其作用类似于LSTM中的输入遗忘门的作用。

这是一个说明这两个单元(或 RNN)的图表。

在此处输入图像描述

相对于 vanilla RNN,LSTM 有更多的“旋钮”或参数。那么,当我们通过 LSTM 模型对神经网络有更多的控制权时,为什么还要使用 GRU?

这里有两个更具体的问题。

  1. 什么时候会在门控循环单元 (GRU) 上使用长短期记忆 (LSTM)?

  2. 与 GRU 相比,使用 LSTM 的优点/缺点是什么?

1个回答

在同样的问题上,有时 GRU 更好,有时 LSTM 更好。

简而言之,拥有更多参数(更多“旋钮”)并不总是一件好事。训练过程需要学习这些参数。除其他问题外,过度拟合的可能性更高。

这些参数在 GRU 或 LSTM 中被分配了特定的角色,因此如果该角色对于特定的学习挑战不太重要,那么让系统尝试为它们学习值可能是浪费甚至适得其反。

找出 LSTM 在问题上是否优于 GRU 的唯一方法是超参数搜索。不幸的是,您不能简单地将一个换成另一个并进行测试,因为优化 LSTM 解决方案的单元数将不同于优化 GRU 的单元数。

什么时候会在门控循环单元 (GRU) 上使用长短期记忆 (LSTM)?

当它通过实验证明更好时。在某些问题域中,这可能已建立,您可以检查。但是,在其他问题领域中,如果 GRU 或 LSTM 中的任何一个都可以很好地解决问题(并且 LSTM 或 GRU 的优势不是工作的重点),那么它可能就不是那么清楚了。