为什么从重放内存中采样不均匀是一个问题?(优先体验重播)

人工智能 强化学习 深度学习 q学习 经验回放
2021-11-09 19:16:49

我似乎无法理解为什么我们需要在优先体验回放 (PER) 中进行重要性抽样。论文的作者在第 5 页写道:

随机更新对期望值的估计依赖于与预期相同的分布对应的那些更新。优先重放会引入偏差,因为它以不受控制的方式改变了这种分布,因此改变了估计将收敛到的解决方案(即使策略和状态分布是固定的)。

我对这句话的理解是,从回放内存中不均匀地采样是一个问题。

所以,我的问题是:既然我们正在一步步偏离政策,为什么这是一个问题?我认为在非策略设置中,我们不在乎如何对转换进行采样(至少在 1 步的情况下)。

我想到的一个问题的一种可能性是,在 PER 的特定情况下,我们根据错误和奖励对转换进行采样,这看起来有点可疑。

这里提出了一个有点相关的问题,但我认为它不能回答我的问题。

1个回答

问题不在于我们需要重要性抽样,因为学习是脱离策略的——对于一步脱离策略的算法,你是正确的,例如Q- 学习我们不需要重要性抽样,请参阅此处以了解原因我们需要重要性采样的原因是用于训练网络的损失。

原始 DQN 论文中,损失定义为

Li(θa)=E(s,a,r,s)U(D)[(r+γmaxaQ(s,a;θi)Q(s,a;θi))2].
您可以在这里看到对损失的期望是根据重放缓冲区上的均匀分布得出的D. 如果我们开始不均匀地随机抽样,就像 PER 中的情况一样,那么期望就不会得到满足,并且会引入偏差。重要性抽样用于纠正这种偏差。

请注意,在论文中,他们提到偏差在学习开始时并不是什么大问题,因此他们使用衰减β这只会使重要性采样权重成为在学习结束时使用的“正确”权重——这意味着损失的估计是渐近无偏的。