LSTM 和 GRU 旨在学习比没有门控架构的基本 RNN 架构更长期的依赖关系。然而,LSTMs 和 GRUs 通常仍然通过时间截断反向传播进行训练。天真地,截断长度的选择似乎会限制网络可以“记住”多少时间步。是这种情况,还是用 BPTT 训练的 LSTM 截断到 n 步可以从过去的 n 步以上学习依赖关系?
是什么限制了 LSTM 学习的长期依赖关系?
数据挖掘
神经网络
深度学习
rnn
2022-03-11 08:08:35
0个回答
没有发现任何回复~
其它你可能感兴趣的问题