了解 n-step off-policy SARSA 更新

人工智能 强化学习 萨顿巴托 策略外方法 时差法 萨尔萨
2021-11-09 07:00:42

在 Sutton & Barto 的书(第 2 版)第 149 页中,有公式 7.11

在此处输入图像描述

我很难理解这个等式。

我原以为我们应该搬家QG, 在哪里G将通过重要性采样进行校正,但仅G, 不是GQ,因此我会认为正确的方程是

QQ+α(ρGQ)

并不是

QQ+αρ(GQ)

我不明白为什么整个更新的权重为ρ不仅是抽样回报G.

1个回答

将整个更新乘以ρ具有受经验影响的理想属性Qless 当行为策略与目标策略无关时。极端情况下,如果所采取的轨迹在目标策略下的概率为零,则Q根本没有更新,这很好。或者,如果只有G被缩放ρ,采取零概率轨迹会人为地驱动Q为零。