Sutton 和 Barto 所著的书在11.8 节中讨论了通过纠正遇到的状态分布可以改进离策略 TD 函数逼近的收敛性。该部分似乎写得很仓促,并没有很好地解释为什么会,重点,有助于使状态分布更接近目标策略。
目前我对on-policy分布的理解还不清楚。我认为这是在目标策略下遇到的状态分布(我们想要状态动作/状态值的策略)。
重要性采样率校正更新分布(通过将校正项乘以比率),但是如何帮助纠正状态分布?
Sutton 和 Barto 所著的书在11.8 节中讨论了通过纠正遇到的状态分布可以改进离策略 TD 函数逼近的收敛性。该部分似乎写得很仓促,并没有很好地解释为什么会,重点,有助于使状态分布更接近目标策略。
目前我对on-policy分布的理解还不清楚。我认为这是在目标策略下遇到的状态分布(我们想要状态动作/状态值的策略)。
重要性采样率校正更新分布(通过将校正项乘以比率),但是如何帮助纠正状态分布?
我不认为这部分是仓促写的。我认为他们只是没有空间来包含整个证明。这有点涉及,所以他们只是给出了概念。
一种强调策略外时间差分学习问题的方法提供了稳定性的证明。如果您已经阅读过 Sutton 和 Barto 在他们的第二版 RL 书的第 206 页上关于线性 TD(0) 收敛的证明,那么至少其中的一部分应该看起来很熟悉。
On Convergence of Emphatic Temporal-Difference Learning给出了收敛的证明。
我承认我对这些论文的理解不够深入,无法给出总结。如果您最终这样做,我将不胜感激更新。