具有平均奖励的 TD(0) 方程背后的直觉是什么,它是如何推导出来的?

人工智能 强化学习 演员批评方法 时差法
2021-11-10 10:15:17

在 Sutton 和 Barto 的书(第 2 版)的第 10 章中,给出了 TD(0) 误差与平均奖励的方程(方程 10.10):

δt=Rt+1R¯+v^(St+1,w)v^(St,w)

这个等式背后的直觉是什么?它究竟是如何得出的?

此外,在第 13 章第 6 节中,给出了使用 TD 误差的 Actor-Critic 算法。你如何使用 1 个错误来更新 3 个不同的东西——比如平均奖励、价值函数估计器(批评者)和策略函数估计器(参与者)?

平均奖励更新规则R¯R¯+αR¯δ

批评权重更新规则ww+αwδv^(s,w)

演员体重更新规则θθ+αθδlnπ(A|S,θ)

1个回答

这只是来自平均奖励设置中回报的定义(看方程10.9)。“标准” TD 误差定义为

TDerror=Rt+1+V(St+1)V(St)
在平均奖励设置中,平均奖励r(π)从奖励中减去t,Rt, 所以这种情况下的 TD 误差是
TDerror=Rt+1R¯t+1+V(St+1)V(St)
在哪里R¯t+1是估计r(π).

您可以使用δt在所有 3 个更新中,因为这些更新都不相互依赖。例如,如果您更新w你不使用它然后更新θ,或者如果您更新R¯你不使用更新的版本来更新w或者θ所以你不会引入额外的偏见。在每个单独的更新中,您也没有δt多次呈现,因此您需要每个时间步进行多次采样才能获得无偏更新。

此外,这是半梯度算法,它使用自举估计Vt+1但它也不会计算关于它的全导数,仅关于Vt因此该算法在默认情况下是有偏差的,但在实践中对于线性情况来说效果很好。