为什么 GRU 和 LSTM 比标准 RNN 更好?

人工智能 比较 循环神经网络 长短期记忆 门控循环单元
2021-10-19 05:42:36

似乎较旧的 RNN 对其用例有限制,并且已被其他循环架构(例如 LSTM 和 GRU)超越。

2个回答

这些较新的 RNN(LSTM 和 GRU)具有更大的内存控制能力,允许先前的值在许多步骤序列中根据需要保持或重置,从而避免“梯度衰减”或逐步传递的值最终退化。LSTM 和 GRU 网络通过称为“门”的内存块和结构,可以根据需要传递或重置值,从而使这种内存控制成为可能。

LSTMGRU计算上比标准 RNN 更有效,因为它们明确地试图解决梯度消失和爆炸问题这是与梯度向量(包含模型参数的损失函数)在训练具有梯度下降和随时间反向传播的递归神经网络时出现