我在 Pong 环境中运行一个基本的 DQN(深度 Q 网络)。不是 CNN,只是带有 ReLU 的 3 层线性神经网络。
它似乎在大多数情况下都有效,但在某些时候,我的模型遭受了灾难性的性能损失:
真正的原因是什么?
避免这种情况的常用方法是什么?剪裁渐变?还有什么?
(从以前成功的检查点重新加载感觉更像是一种 hack,而不是解决这个问题的正确方法。)