DQN2013论文中体验重放优势的区别

数据挖掘 机器学习 深度学习 强化学习 dqn
2021-09-24 14:40:35

我一直在重读Playing Atari with Deep Reinforcement Learning (2013) 论文。它列出了体验回放的三个优点:

与标准的在线 Q 学习 [23] 相比,这种方法有几个优点。首先,经验的每一步都可能用于许多权重更新,从而提高数据效率。其次,由于样本之间的强相关性,直接从连续样本中学习效率低下;将样本随机化会破坏这些相关性,从而减少更新的方差。第三,当学习on-policy时,当前参数决定了训练参数的下一个数据样本。例如,如果最大化动作是向左移动,那么训练样本将由左侧的样本支配;如果最大化动作然后切换到右侧,那么训练分布也将切换。很容易看出不需要的反馈回路是如何出现的,并且参数可能会陷入糟糕的局部最小值,甚至灾难性地发散[25]。通过使用经验回放,行为分布在其许多先前的状态上被平均化,从而使学习变得平滑并避免参数中的振荡或发散。请注意,在通过经验回放学习时,

我对第二个和第三个优势有何不同感到困惑。第三个优势不就是打破相关性的另一种情况吗?

预先感谢您的帮助!

1个回答

第三个优势不就是打破相关性的另一种情况吗?

可以这样看,但这是一种不同的相关性。

第二优点是关于打破相关性,因为样本来自同一轨迹上的相邻时间步长。当状态向量在每个时间步长缓慢/增量地演化时,这是一个更重要的问题。

第三优点是由于从同一策略中获取样本而破坏了相关性。当某些动作具有非常相似的奖励和独立于状态的状态进展时,这是一个更重要的问题,或者可能导致状态没有变化(例如,智能体试图进入墙壁 - 智能体由于失控的反馈而被卡在角落里方向是“最好的”是你有时可以在 DQN 学习时观察到的事情)。

当早期事件将轨迹的其余部分放入整体空间的单个部分时,两者也可能是一个因素,这可能发生在状态历史很重要的环境中 - 在这些情况下,几乎所有时间步长都在一个情节中可以相关。想想一个资源管理游戏,在游戏早期消耗或保留关键资源对任务的最终成功有很大影响。这受到第二个和第三个优势元素的影响——即轨迹中的状态由于整个资源的状态而相互关联,并且在多个事件中,当前政策可能更喜欢在特定阶段消耗或保持该资源。

第二个和第三个优点避免的相关性通常发生在不同的时间范围内,尽管这确实很大程度上取决于具体问题。第二个优势可能会通过相对较小的重放内存获得(取决于状态如何演变和情节的长度)。第三个优势通常需要更大的内存,以便捕获具有不同策略的情节。此外,回放记忆应该包括对第三个问题也有帮助的探索性动作。