我想我仅从数学角度理解这两种类型的单位。
我不明白的是,GRU 在实践中怎么可能表现得和 LSTM 一样好或更好(这似乎是常态)?我不直观地了解 GRU 如何弥补缺失的单元格内容。门似乎与 LSTM 的门几乎相同,但缺少部分。这是否只是意味着 LSTM 中的单元实际上几乎没用?
编辑:其他问题询问了 GRU 和 LSTM 之间的区别。他们(在我看来)都没有很好地解释为什么即使没有内存单元,GRU 也能像 LSTM 一样工作,只是缺少内存单元是使 GRU 更快的差异之一。
我想我仅从数学角度理解这两种类型的单位。
我不明白的是,GRU 在实践中怎么可能表现得和 LSTM 一样好或更好(这似乎是常态)?我不直观地了解 GRU 如何弥补缺失的单元格内容。门似乎与 LSTM 的门几乎相同,但缺少部分。这是否只是意味着 LSTM 中的单元实际上几乎没用?
编辑:其他问题询问了 GRU 和 LSTM 之间的区别。他们(在我看来)都没有很好地解释为什么即使没有内存单元,GRU 也能像 LSTM 一样工作,只是缺少内存单元是使 GRU 更快的差异之一。
GRU 和 LSTM 是许多可能的相似架构中的两个流行的 RNN 变体,其动机是具有类似的理论思想,即具有梯度不会降低太多的“直通”通道,以及基于 sigmoid 的控制门系统来管理时间之间传递的信号脚步。
即使使用 LSTM,也有可能会使用也可能不会使用的变体,例如在先前的单元状态和门之间添加“窥视孔”连接。
LSTM 和 GRU 是迄今为止探索的两种架构,它们在广泛的问题上表现良好,经实验验证。我怀疑,但不能确定地表明,没有强有力的理论可以解释这种粗略的等价。相反,我们留下了更多基于直觉的理论或猜想:
GRU 每个“单元”的参数较少,理论上允许它从较少的示例中更好地概括,但代价是灵活性较低。
LSTM 具有更复杂的记忆,可以将内部细胞状态与细胞输出分离,允许它输出对任务有用的特征,而无需记住这些特征。这是以需要学习额外的门为代价的,这些门有助于在状态和特征之间进行映射。
一般来说,在考虑这些架构的性能时,您必须允许某些问题会更好地利用这些优势,否则可能会被淘汰。例如,在时间步之间转发层输出已经是很好的状态表示和特征表示的问题中,几乎不需要 LSTM 的额外内部状态。
实际上,在寻找好的解决方案时,LSTM 和 GRU 之间的选择是另一个要考虑的超参数,并且与大多数其他超参数一样,没有强有力的理论来指导先验选择。
正如其他人指出的那样,没有明显的优越方法。正如机器学习中经常发生的那样,更复杂的方法比简单的方法更强大(它们可以建模更复杂的关系),但这总是要付出代价的。
在 GRUs 和 LSTMs 的具体例子中是完全相同的,LSTM 具有更复杂的结构,因此它具有对更多时间相关特征进行建模的能力。GRU 更简单(见下图),因此当数据稀缺或过度拟合的风险很高时,它们可能会优于 LSTM。
看看这篇论文,对这两种方法进行了很好的实证评估。如果你得出结论,你会读到:
“......我们无法就两个门控单元中的哪个更好做出具体结论。”