数据挖掘 - 在 LSTM 中如何确保各自的门控功能？ - 吾爱随笔录

我正在研究 Hochreiter-Schmidhuber 长短期记忆循环架构。整体思路、信息流和操作很清晰，看起来很管用，但我无法理解的是，如何确保各个“门”的效果，或者确实是一一检查？

例如，很明显“忘记门”（单元状态、隐藏状态和新传入训练实例之间的交互序列中的第一个）负责“忘记”单元状态中的信息，但我看不出它是如何一个实际上是被迫做“忘记”的，而不是其他一些门？在输入和输出门的情况下，整体机制（联合 x_t 和 h_t-1，通过一些函数将其压缩并将结果注入 c_t）也非常相似，因此在理论上（和实践中）可能不是忘记门这确实是忘记了，但在特定情况下可能是输入门。如何解释和检查？也许在忘记门之后立即捕获单元状态，将其与 c_t-1 进行比较，看看向量值是否有所减少/归零是证据吗？或者也许不需要认真对待门的名称，而只是将整个机制解释为一个随机的黑匣子，不知何故仍然有效？