怎么ΔΔ在真正的在线TD中更新(λλ)?

人工智能 强化学习 时差法 td-λ
2021-11-18 03:15:00

在 Sutton & Barto 的 RL 教科书第 7.4 节中,作者谈到了“真正的在线 TD(λ)”。下图(书中7.10)展示了算法。

在每一步结束时,VoldV(S)并且SS. 当我们跳到下一步时,ΔV(S)V(S), 为 0。看来Δ在第 1 步之后总是为 0。如果这是真的,那对我来说没有任何意义。你能详细说明一下如何 Δ更新了吗?

在此处输入图像描述

1个回答

让我们表示我们当时所处的状态t经过St. 然后在迭代t我们创建一个占位符Vold=V(St+1)对于我们将过渡到的状态。然后我们更新价值函数(s)s小号- 即我们更新状态空间中所有状态的值函数。让我们将这个更新的价值函数表示为'(小号).

迭代时+1我们计算Δ='(小号+1)-ld='(小号+1)-(小号+1),它不一定等于 0,因为占位符ld是在上次更新之前使用值函数创建的。