LSTM:训练中的 BPTT 与 RTRL

数据挖掘 反向传播 lstm
2022-02-18 07:44:26

在最初描述现代 LSTM(Gers 等人)的2000 年论文中,训练算法描述如下:

输出单元采用BPTT;输出门使用略微修改、截断的 BPTT。然而,细胞权重、输入门和新颖的遗忘门使用了 RTRL 的截断版本。

然而,这种选择在文本中是不合理的。

对于使用 BPTT 训练输出门和使用 RTRL 训练其他门的决定是否有直观的解释?

0个回答
没有发现任何回复~