差分半梯度 Sarsa 如何更新估计的平均奖励?

数据挖掘 机器学习 强化学习
2021-10-01 06:14:10

我无法理解算法微分半梯度 Sarsa如何更新其估计的平均奖励R¯. 我正在查看的算法来自 Sutton 的教科书Reinforcement Learning:An Introduction,第 10.3 节。

为什么不更新R¯使用奖励R像现在这样R¯=(1-β)R¯+β*R? 由于根据定义,R¯是估计的平均奖励。我不明白为什么更新是这样的:R¯=R¯+β*δ, 在哪里δ只是TD错误。为什么要使用 TD error 来更新平均奖励?

下图显示了该算法。 在此处输入图像描述

1个回答

在一个持续的任务中,TD 误差可以将 w 增加到无穷大,除非它的期望值是零。通过减去 TD 平均估计,我们的更新值的期望值为零,w 不能达到无穷大。TD 误差是对平均奖励的有偏估计(假设可以从每个状态到达每个状态,因为平均奖励与我们使用的状态动作组合无关,所以随着更新次数趋于无穷大,偏差会变为零)开始)。