在 Sutton 和 Barto 的书(第 2 版)的第 10 章中,给出了 TD(0) 误差与平均奖励的方程(方程 10.10):
这个等式背后的直觉是什么?它究竟是如何得出的?
此外,在第 13 章第 6 节中,给出了使用 TD 误差的 Actor-Critic 算法。你如何使用 1 个错误来更新 3 个不同的东西——比如平均奖励、价值函数估计器(批评者)和策略函数估计器(参与者)?
平均奖励更新规则:
批评权重更新规则:
演员体重更新规则:
在 Sutton 和 Barto 的书(第 2 版)的第 10 章中,给出了 TD(0) 误差与平均奖励的方程(方程 10.10):
这个等式背后的直觉是什么?它究竟是如何得出的?
此外,在第 13 章第 6 节中,给出了使用 TD 误差的 Actor-Critic 算法。你如何使用 1 个错误来更新 3 个不同的东西——比如平均奖励、价值函数估计器(批评者)和策略函数估计器(参与者)?
平均奖励更新规则:
批评权重更新规则:
演员体重更新规则:
这只是来自平均奖励设置中回报的定义(看方程)。“标准” TD 误差定义为
在平均奖励设置中,平均奖励从奖励中减去,, 所以这种情况下的 TD 误差是
在哪里是估计.
您可以使用在所有 3 个更新中,因为这些更新都不相互依赖。例如,如果您更新你不使用它然后更新,或者如果您更新你不使用更新的版本来更新或者所以你不会引入额外的偏见。在每个单独的更新中,您也没有多次呈现,因此您需要每个时间步进行多次采样才能获得无偏更新。
此外,这是半梯度算法,它使用自举估计但它也不会计算关于它的全导数,仅关于因此该算法在默认情况下是有偏差的,但在实践中对于线性情况来说效果很好。