在最初描述现代 LSTM(Gers 等人)的2000 年论文中,训练算法描述如下:
输出单元采用BPTT;输出门使用略微修改、截断的 BPTT。然而,细胞权重、输入门和新颖的遗忘门使用了 RTRL 的截断版本。
然而,这种选择在文本中是不合理的。
对于使用 BPTT 训练输出门和使用 RTRL 训练其他门的决定是否有直观的解释?
在最初描述现代 LSTM(Gers 等人)的2000 年论文中,训练算法描述如下:
输出单元采用BPTT;输出门使用略微修改、截断的 BPTT。然而,细胞权重、输入门和新颖的遗忘门使用了 RTRL 的截断版本。
然而,这种选择在文本中是不合理的。
对于使用 BPTT 训练输出门和使用 RTRL 训练其他门的决定是否有直观的解释?