这个 TD(0) 离策略值更新公式是如何工作的?

人工智能 强化学习 时差法 策略外方法 重要性抽样
2021-11-09 05:48:16

TD(0) off-policy 学习算法的更新公式是(取自D. Silver 课程第 5 讲的这些幻灯片)

V(St)New valueV(St)Old value+α(π(At|St)μ(At|St)(Rt+1+γV(St+1))TD targetV(St)Old value)

在哪里π(At|St)μ(At|St)是政策的可能性的比率π将在此状态下采取此操作除以行为策略的可能性μ在此状态下执行此操作。

我不明白的是:

假设行为策略μ采取了根据政策不太可能发生的行动π. 我会假设这个词走向0.

π(At|St)μ(At|St)=0

但是,如果这个词去0,整个等式将变为以下

V(St)V(St)αV(St)

这意味着我们会降低这个状态的值。

但这对我来说没有任何意义,如果这两个政策非常不同,我们几乎没有获得任何信息。因此,我会假设该值将保持不变而不是减少。

我在这里有什么误解?

1个回答

这意味着我们会降低这个状态的值。

是的。这种减少估计的更新是正确的,因为当探索策略选择在目标策略中比在行为策略中更有可能的动作时,它会针对不可避免的价值高估进行调整。如果您的智能体经历了一些似然比接近的动作,则必须发生这种高估0,它还必须经历一些似然比大于的动作1. 这是因为Eμ[π(a|s)μ(a|s)]=1*,假设行为策略覆盖目标策略(行为策略对于目标策略具有非零概率的所有动作具有非零概率)。

那些似然比大于1由于被取消政策,实际上并没有比以前更好,因此它们在更新中使用的价值将被高估。

只有在大量样本的限制下,调整后的价值函数才会收敛于对目标策略的价值函数的良好估计。

由于这种影响,基本重要性抽样可能会出现方差增加的问题。事实上,在某些情况下,方差可以显示为无界/无限。我不确定在 TD 学习中是否是这种情况,但在蒙特卡洛的重要性采样中肯定是这种情况。TD(0) 确实受益于自举减少的方差,因此它可能没有无限方差。尽管如此,它仍然比 on-policy TD(0) 具有更高的方差。


*

对于任何固定状态,s,

Eμ[π(a|s)μ(a|s)]=aμ(a|s)π(a|s)μ(a|s)=aπ(a|s)=1