人工智能 - 了解 n-step off-policy SARSA 更新 - 吾爱随笔录

人工智能强化学习萨顿巴托策略外方法时差法萨尔萨

2021-11-09 07:00:42

在 Sutton & Barto 的书（第 2 版）第 149 页中，有公式 7.11

我很难理解这个等式。

我原以为我们应该搬家 $Q$ 向 $G$ ，在哪里 $G$ 将通过重要性采样进行校正，但仅 $G$ ，不是 $G-Q$ ，因此我会认为正确的方程是

$Q \leftarrow Q + \alpha (\rho G - Q)$

并不是

$Q \leftarrow Q + \alpha \rho (G - Q)$

我不明白为什么整个更新的权重为 $\rho$ 不仅是抽样回报 $G$ .

1个回答

将整个更新乘以 $\rho$ 具有受经验影响的理想属性 $Q$ less 当行为策略与目标策略无关时。极端情况下，如果所采取的轨迹在目标策略下的概率为零，则 $Q$ 根本没有更新，这很好。或者，如果只有 $G$ 被缩放 $\rho$ ，采取零概率轨迹会人为地驱动 $Q$ 为零。

其它你可能感兴趣的问题