怎么ΔΔ在真正的在线TD中更新(λλ)?
人工智能
强化学习
时差法
td-λ
2021-11-18 03:15:00
1个回答
让我们表示我们当时所处的状态经过. 然后在迭代我们创建一个占位符对于我们将过渡到的状态。然后我们更新价值函数- 即我们更新状态空间中所有状态的值函数。让我们将这个更新的价值函数表示为.
迭代时我们计算,它不一定等于 0,因为占位符是在上次更新之前使用值函数创建的。
其它你可能感兴趣的问题