人工智能 - 深度强化学习：奖励突然下降 - 吾爱随笔录

深度强化学习：奖励突然下降

人工智能强化学习 q学习 dqn

2021-10-30 13:32:24

我正在研究一个深度强化学习问题。该策略网络与 Deepmind 在“Playing Atari with Deep Reinforcement Learning”中发布的架构具有相同的架构。我也在使用优先体验重播。在初始阶段，行为似乎是正常的，即代理正在逐渐学习。然而，过了一会儿，奖励突然下降了很多。TD 错误似乎也在同时上升。我不确定如何解释这个问题。

我的假设是：

策略网络过拟合
某些过滤器无法激活，从而歪曲了状态信息

如果你们能给我一些提示来缩小这个问题的范围，我将不胜感激。干杯。

1个回答

如果不深入研究您的诊断，从表面上看，这似乎是一个局部最优问题。假设您正在通过 GD 进行优化，在这种情况下，网络或代理可以收敛并停留在许多局部最优值上，这将导致上述症状。

话虽如此，假设这是我们的问题，您可以尝试以下操作：

正则化，尝试添加 dropout 或 L2，看看它如何影响收敛和学习。
调整网络架构、层数、节点等。
尝试不同类型的 RL（例如 Q 学习），这当然取决于您的问题。
调整起始种子。假设您有一个用于权重初始化的静态种子，您将始终收敛到相同的解决方案。它可以像调整种子值一样简单。

如果所有这些步骤都失败了，您可能在工作中遇到了更深层次的问题，如果没有成功，我建议您稍后再回来提供一些额外的细节。

其它你可能感兴趣的问题

上一篇播放是从蒙特卡洛树搜索中的叶子还是叶子的子节点开始的？下一篇为什么不用 Auto-AutoML 再深入一层呢？