我一直在重读Playing Atari with Deep Reinforcement Learning (2013) 论文。它列出了体验回放的三个优点:
与标准的在线 Q 学习 [23] 相比,这种方法有几个优点。首先,经验的每一步都可能用于许多权重更新,从而提高数据效率。其次,由于样本之间的强相关性,直接从连续样本中学习效率低下;将样本随机化会破坏这些相关性,从而减少更新的方差。第三,当学习on-policy时,当前参数决定了训练参数的下一个数据样本。例如,如果最大化动作是向左移动,那么训练样本将由左侧的样本支配;如果最大化动作然后切换到右侧,那么训练分布也将切换。很容易看出不需要的反馈回路是如何出现的,并且参数可能会陷入糟糕的局部最小值,甚至灾难性地发散[25]。通过使用经验回放,行为分布在其许多先前的状态上被平均化,从而使学习变得平滑并避免参数中的振荡或发散。请注意,在通过经验回放学习时,
我对第二个和第三个优势有何不同感到困惑。第三个优势不就是打破相关性的另一种情况吗?
预先感谢您的帮助!