人工智能 - 怎么ΔΔ在真正的在线TD中更新（λλ)? - 吾爱随笔录

怎么ΔΔ在真正的在线TD中更新（λλ)?

人工智能强化学习时差法 td-λ

2021-11-18 03:15:00

在 Sutton & Barto 的 RL 教科书第 7.4 节中，作者谈到了“真正的在线 TD( $\lambda$ )”。下图（书中7.10）展示了算法。

在每一步结束时， $V_{old} \leftarrow V(S')$ 并且 $S \leftarrow S'$ . 当我们跳到下一步时， $\Delta \leftarrow V(S') - V(S')$ , 为 0。看来 $\Delta$ 在第 1 步之后总是为 0。如果这是真的，那对我来说没有任何意义。你能详细说明一下如何 $\Delta$ 更新了吗？

1个回答

让我们表示我们当时所处的状态 $t$ 经过 $S_t$ . 然后在迭代 $t$ 我们创建一个占位符 $V_{old} = V(S_{t+1})$ 对于我们将过渡到的状态。然后我们更新价值函数 $V(s) \; \forall s \in \mathcal{S}$ - 即我们更新状态空间中所有状态的值函数。让我们将这个更新的价值函数表示为 $V'(S)$ .

迭代时 $t+1$ 我们计算 $\Delta = V'(S_{t+1}) - V_{old} = V'(S_{t+1}) - V(S_{t+1})$ ，它不一定等于 0，因为占位符 $V_{old}$ 是在上次更新之前使用值函数创建的。

其它你可能感兴趣的问题

上一篇当一个模型“在统计上优于”另一个模型时，这意味着什么？下一篇我该怎么腐烂εε在 Q 学习中？