我正在研究 Hochreiter-Schmidhuber 长短期记忆循环架构。整体思路、信息流和操作很清晰,看起来很管用,但我无法理解的是,如何确保各个“门”的效果,或者确实是一一检查?
例如,很明显“忘记门”(单元状态、隐藏状态和新传入训练实例之间的交互序列中的第一个)负责“忘记”单元状态中的信息,但我看不出它是如何一个实际上是被迫做“忘记”的,而不是其他一些门?在输入和输出门的情况下,整体机制(联合 x_t 和 h_t-1,通过一些函数将其压缩并将结果注入 c_t)也非常相似,因此在理论上(和实践中)可能不是忘记门这确实是忘记了,但在特定情况下可能是输入门。如何解释和检查?也许在忘记门之后立即捕获单元状态,将其与 c_t-1 进行比较,看看向量值是否有所减少/归零是证据吗?或者也许不需要认真对待门的名称,而只是将整个机制解释为一个随机的黑匣子,不知何故仍然有效?