数据挖掘 - 差分半梯度 Sarsa 如何更新估计的平均奖励？ - 吾爱随笔录

我无法理解算法微分半梯度 Sarsa如何更新其估计的平均奖励 $\bar{R}$ . 我正在查看的算法来自 Sutton 的教科书Reinforcement Learning:An Introduction，第 10.3 节。

为什么不更新 $\bar{R}$ 使用奖励 $R$ 像现在这样 $\bar{R} = (1-\beta)\bar{R}+\beta*R$ ? 由于根据定义， $\bar{R}$ 是估计的平均奖励。我不明白为什么更新是这样的： $\bar{R} = \bar{R}+\beta*\delta$ ，在哪里 $\delta$ 只是TD错误。为什么要使用 TD error 来更新平均奖励？

下图显示了该算法。