数据挖掘 - DQN2013论文中体验重放优势的区别 - 吾爱随笔录

DQN2013论文中体验重放优势的区别

数据挖掘机器学习深度学习强化学习 dqn

2021-09-24 14:40:35

我一直在重读Playing Atari with Deep Reinforcement Learning (2013) 论文。它列出了体验回放的三个优点：

与标准的在线 Q 学习 [23] 相比，这种方法有几个优点。首先，经验的每一步都可能用于许多权重更新，从而提高数据效率。其次，由于样本之间的强相关性，直接从连续样本中学习效率低下；将样本随机化会破坏这些相关性，从而减少更新的方差。第三，当学习on-policy时，当前参数决定了训练参数的下一个数据样本。例如，如果最大化动作是向左移动，那么训练样本将由左侧的样本支配；如果最大化动作然后切换到右侧，那么训练分布也将切换。很容易看出不需要的反馈回路是如何出现的，并且参数可能会陷入糟糕的局部最小值，甚至灾难性地发散[25]。通过使用经验回放，行为分布在其许多先前的状态上被平均化，从而使学习变得平滑并避免参数中的振荡或发散。请注意，在通过经验回放学习时，

我对第二个和第三个优势有何不同感到困惑。第三个优势不就是打破相关性的另一种情况吗？

预先感谢您的帮助！

1个回答

第三个优势不就是打破相关性的另一种情况吗？

可以这样看，但这是一种不同的相关性。

第二个优点是关于打破相关性，因为样本来自同一轨迹上的相邻时间步长。当状态向量在每个时间步长缓慢/增量地演化时，这是一个更重要的问题。

第三个优点是由于从同一策略中获取样本而破坏了相关性。当某些动作具有非常相似的奖励和独立于状态的状态进展时，这是一个更重要的问题，或者可能导致状态没有变化（例如，智能体试图进入墙壁 - 智能体由于失控的反馈而被卡在角落里方向是“最好的”是你有时可以在 DQN 学习时观察到的事情）。

当早期事件将轨迹的其余部分放入整体空间的单个部分时，两者也可能是一个因素，这可能发生在状态历史很重要的环境中 - 在这些情况下，几乎所有时间步长都在一个情节中可以相关。想想一个资源管理游戏，在游戏早期消耗或保留关键资源对任务的最终成功有很大影响。这受到第二个和第三个优势元素的影响——即轨迹中的状态由于整个资源的状态而相互关联，并且在多个事件中，当前政策可能更喜欢在特定阶段消耗或保持该资源。

第二个和第三个优点避免的相关性通常发生在不同的时间范围内，尽管这确实很大程度上取决于具体问题。第二个优势可能会通过相对较小的重放内存获得（取决于状态如何演变和情节的长度）。第三个优势通常需要更大的内存，以便捕获具有不同策略的情节。此外，回放记忆应该包括对第三个问题也有帮助的探索性动作。

其它你可能感兴趣的问题

上一篇Keras：预测性能与准确性不匹配下一篇如何读取多个标题下的 html 表并将它们组合在一个 pandas 数据框中？