深度强化学习:奖励突然下降

人工智能 强化学习 q学习 dqn
2021-10-30 13:32:24

我正在研究一个深度强化学习问题。该策略网络与 Deepmind 在“Playing Atari with Deep Reinforcement Learning”中发布的架构具有相同的架构。我也在使用优先体验重播。在初始阶段,行为似乎是正常的,即代理正在逐渐学习。然而,过了一会儿,奖励突然下降了很多。TD 错误似乎也在同时上升。我不确定如何解释这个问题。

我的假设是:

  1. 策略网络过拟合
  2. 某些过滤器无法激活,从而歪曲了状态信息

如果你们能给我一些提示来缩小这个问题的范围,我将不胜感激。干杯。奖励和 Td 错误

1个回答

如果不深入研究您的诊断,从表面上看,这似乎是一个局部最优问题。假设您正在通过 GD 进行优化,在这种情况下,网络或代理可以收敛并停留在许多局部最优值上,这将导致上述症状。

话虽如此,假设这是我们的问题,您可以尝试以下操作:

  1. 正则化,尝试添加 dropout 或 L2,看看它如何影响收敛和学习。

  2. 调整网络架构、层数、节点等。

  3. 尝试不同类型的 RL(例如 Q 学习),这当然取决于您的问题。

  4. 调整起始种子。假设您有一个用于权重初始化的静态种子,您将始终收敛到相同的解决方案。它可以像调整种子值一样简单。

如果所有这些步骤都失败了,您可能在工作中遇到了更深层次的问题,如果没有成功,我建议您稍后再回来提供一些额外的细节。