我目前正在尝试理解 Ger 的论文Long Short-Term Memory in Recurrent Neural Networks 中的数学。到目前为止,我发现该文档清晰易读。
在第 页。pdf 的第 21 页(论文的第 13 页),他推导出了输出门的后向传递方程。他写
如果我们更换,表达式变为
他指出偏导数的结果来自对输出单元的前向传递方程进行微分。
从那和从包含,论文暗示只有一个隐藏的 LSTM 层。如果有多个隐藏的 LSTM 层,那就没有意义了。
因为如果是当前单元输出到的 LSTM 单元的索引,则将不存在,因为单元输出未与网络的目标输出进行比较。而如果是输出神经元的索引,那么不会存在,因为记忆细胞没有直接连接到输出神经元。和不能意味着不同的东西,因为这两个组件都放在一个总和之下. 因此,只有在论文假设单个 LSTM 层时才有意义。
那么,如何修改输出到另一个 LSTM 层的 LSTM 层的反向传递推导步骤?