我正在阅读 Sutton 和 Barto 撰写的“强化学习:简介(第 2 版)”。在第 9 节,使用近似的 On-policy prediction 中,它首先给出了(9.1)中的均方值误差目标函数:
. (9.1)
是参数化函数的向量近似值函数.是花费在,它衡量了状态的“重要性”在.
在(9.4)中,它声明了一个更新规则通过梯度下降: . (9.4)
我有两个关于 (9.4) 的问题。
- 为什么不在 (9.4) 中?
- 为什么它是(9.4)中的“减号”而不是“+”?换句话说,为什么代替?
我正在阅读 Sutton 和 Barto 撰写的“强化学习:简介(第 2 版)”。在第 9 节,使用近似的 On-policy prediction 中,它首先给出了(9.1)中的均方值误差目标函数:
. (9.1)
是参数化函数的向量近似值函数.是花费在,它衡量了状态的“重要性”在.
在(9.4)中,它声明了一个更新规则通过梯度下降: . (9.4)
我有两个关于 (9.4) 的问题。
不在等式(9.4)中,因为我们假设更新参数的示例,即我们在在线训练期间观察状态的频率是相同的。也就是说,它是一个常数并且由于我们正在区分它可以在某种程度上被忽略为比例常数 - 它基本上可以被“吸收”.
减号在那里是因为我们正在执行梯度下降。有关这方面的更多信息,请参见例如维基百科页面