人工智能 - 在 Sutton & Barto 的 off-policy MC 控制算法中，当样本动作与目标策略不一致时，为什么我们要执行最后一次更新？ - 吾爱随笔录

在 Sutton & Barto 的 off-policy MC 控制算法中，当样本动作与目标策略不一致时，为什么我们要执行最后一次更新？

人工智能强化学习蒙特卡罗方法策略外方法萨顿巴托

2021-10-31 09:42:53

我有一个关于 $W$ Sutton & Barto 的第 111 页上的 off-policy MC 控制算法中的术语。我也将它包含在下图中。

我的问题：不应该检查 $A_{t} = \pi(S_{t})$ 更新前制作 $C(S_{t}, A_{t})$ 和 $Q(S_{t}, A_{t})$ ? 并且，此时如果 $A_{t} \neq \pi(S_{t})$ 那么内部循环应该在更新之前退出 $Q(\cdot)$ . 如果 $A_{t} = \pi(S_{t})$ 那么不应该 $W$ 更新为 $W = W \frac{1}{b(A_{t}|S_{t})}$ 在更新之前 $Q(s, a)$ 和 $C(s, a) 函数？

所述算法对我来说似乎有问题。例如，如果说目标策略 $\pi$ 是确定性和行为策略 $b$ 是随机的。如果在期间 $T-1$ 行为策略采取的行动与 $\pi$ 那么重要性采样率 $\rho_{T-1:T-1} = 0$ . 但是，如图所示的算法会更新 $Q(S_{T-1}, A_{T-1})$ 因为我上面提到的检查直到内部循环结束时才会发生。我在这里想念什么？

1个回答

我认为这是确保收敛性的算法的一个有意的微妙细节。书中的主张是，对于任何 $b$ 这为我们提供了“每对状态和动作的无限数量的回报”目标策略 $\pi$ 会收敛到最优。

现在想象一下，我们有这么糟糕的政策 $b$ 它永远不会与最后一步的目标政策行动保持一致 $t=T-1$ 每个生成的剧集： $A_{T-1} = \pi(S_{T-1})$ . 在这种情况下，重量值将保持不变 $W=1$ 并且算法将简化为（忽略 $t$ 最后的索引 $S,A,R$ 三胞胎）：

\begin{array}{l} C (S, A) \leftarrow C (S, A) + 1 \\ Q (S, A) \leftarrow Q (S, A) + \frac{1}{C (S, A)} [R - Q (S, A)] \end{array}

$\begin{array}{l} C(S,A) \leftarrow C(S,A) + 1 \\ Q(S,A) \leftarrow Q(S,A) + \frac{1}{C(S,A)}\left[R - Q(S,A)\right] \end{array}$
这只是 Q 值的表格增量平均（参见例如 eq. (2.3)）。

如果我们在这些更新之前退出 for 循环，那么根本不会发生更新。对于所有那些“好”的采样策略，作者将无法声称收敛到最优策略 $b$ .

其它你可能感兴趣的问题

上一篇是否有适用于只有离散动作空间（非混合）的环境的多智能体深度强化学习算法？下一篇是否可以设计具有两个输入和一个布尔输出的 AI？