除了原始论文,还有其他材料可以推导出 LSTM 反向传播和错误轮播吗?(我无法理解,抱歉)。
我尝试推导并卡住了,并问了以下问题:LSTMs - Data Science Stack Exchange question,但是,似乎没有多少人对 LSTM 的手工推导感兴趣。
谢谢
除了原始论文,还有其他材料可以推导出 LSTM 反向传播和错误轮播吗?(我无法理解,抱歉)。
我尝试推导并卡住了,并问了以下问题:LSTMs - Data Science Stack Exchange question,但是,似乎没有多少人对 LSTM 的手工推导感兴趣。
谢谢
一个可能有用的工具是Aiden Gomez 的博客文章。它的优势主要在于他运行了一个玩具/数字示例,当与原始论文/论文配对时,它可以作为一个很好的基础工具。
我确实看过你在另一个问题中提到的网站,它实际上是一个很好的资源。当我有机会时,我会跳过去并尝试澄清我能为你做些什么。看起来您误解/忽略了可能发生的符号,因为涉及的组件太多。
看看一些代码可能也是值得的。Siraj Raval 有一个关于 LSTM 的精彩视频,并在我包含的链接中包含代码。没有图书馆。我不会深入研究,但这是了解网络内部运作的好方法。
就 CEC 而言,有一个reddit 帖子。如果您正在寻找对该主题的更严格处理,您可以参考原始论文或经常引用的论文:On the Difficulty of Training Recurrent Neural Networks。