数据挖掘 - 是什么导致 RNN 中的错误在训练后期增加？ - 吾爱随笔录

我正在训练一个 2 层、1024 个节点，在自然文本上丢失 0.5 RNN。具体来说，我正在使用karpathy 的 char-rnn，我发现它在我的大多数用例中都能很好地工作。然而，有时，在训练的后期，我的错误会急剧增加，我不知道为什么会这样。

问题是特别问我为什么观察到错误的急剧增加，以及在实践中如何处理。除了采用最后一个已知的好模型之外，还可以做些什么来防止这种情况发生？