为什么在状态中花费的时间比例ss,μ (秒)μ(s),不在参数的更新规则中?

人工智能 强化学习 梯度下降 函数逼近 萨顿巴托
2021-11-14 06:34:32

我正在阅读 Sutton 和 Barto 撰写的“强化学习:简介(第 2 版)”。在第 9 节,使用近似的 On-policy prediction 中,它首先给出了(9.1)中的均方值误差目标函数:

VE¯(w)=sSμ(s)[vπ(s)v^(s,w)]2. (9.1)

w是参数化函数的向量v^(s,w)近似值函数vπ(s).μ(s)是花费在s,它衡量了状态的“重要性”sVE¯(w).

在(9.4)中,它声明了一个更新规则w通过梯度下降: wt+1=w12α[vπ(St)v^(St,w)]2. (9.4)

我有两个关于 (9.4) 的问题。

  1. 为什么μ(s)不在 (9.4) 中?
  2. 为什么它是(9.4)中的“减号”而不是“+”?换句话说,为什么w12α[vπ(St)v^(St,w)]2代替w+12α[vπ(St)v^(St,w)]2?
1个回答
  1. μ(s)不在等式(9.4)中,因为我们假设更新参数的示例w,即我们在在线训练期间观察状态的频率是相同的。也就是说,它是一个常数w并且由于我们正在区分它可以在某种程度上被忽略为比例常数 - 它基本上可以被“吸收”α.

  2. 减号在那里是因为我们正在执行梯度下降有关这方面的更多信息,请参见例如维基百科页面