我无法理解算法微分半梯度 Sarsa如何更新其估计的平均奖励. 我正在查看的算法来自 Sutton 的教科书Reinforcement Learning:An Introduction,第 10.3 节。
为什么不更新使用奖励像现在这样? 由于根据定义,是估计的平均奖励。我不明白为什么更新是这样的:, 在哪里只是TD错误。为什么要使用 TD error 来更新平均奖励?
我无法理解算法微分半梯度 Sarsa如何更新其估计的平均奖励. 我正在查看的算法来自 Sutton 的教科书Reinforcement Learning:An Introduction,第 10.3 节。
为什么不更新使用奖励像现在这样? 由于根据定义,是估计的平均奖励。我不明白为什么更新是这样的:, 在哪里只是TD错误。为什么要使用 TD error 来更新平均奖励?
在一个持续的任务中,TD 误差可以将 w 增加到无穷大,除非它的期望值是零。通过减去 TD 平均估计,我们的更新值的期望值为零,w 不能达到无穷大。TD 误差是对平均奖励的有偏估计(假设可以从每个状态到达每个状态,因为平均奖励与我们使用的状态动作组合无关,所以随着更新次数趋于无穷大,偏差会变为零)开始)。