我似乎无法理解为什么我们需要在优先体验回放 (PER) 中进行重要性抽样。该论文的作者在第 5 页写道:
随机更新对期望值的估计依赖于与预期相同的分布对应的那些更新。优先重放会引入偏差,因为它以不受控制的方式改变了这种分布,因此改变了估计将收敛到的解决方案(即使策略和状态分布是固定的)。
我对这句话的理解是,从回放内存中不均匀地采样是一个问题。
所以,我的问题是:既然我们正在一步步偏离政策,为什么这是一个问题?我认为在非策略设置中,我们不在乎如何对转换进行采样(至少在 1 步的情况下)。
我想到的一个问题的一种可能性是,在 PER 的特定情况下,我们根据错误和奖励对转换进行采样,这看起来有点可疑。
这里提出了一个有点相关的问题,但我认为它不能回答我的问题。