我正在阅读 Sutton 和 Barto 撰写的“强化学习:简介(第 2 版)”。在第 9 节,使用近似的 On-policy prediction 中,它首先给出了(9.1)中的均方值误差目标函数:
VE¯(w)=∑s∈Sμ(s)[vπ(s)−v^(s,w)]2. (9.1)
w是参数化函数的向量v^(s,w)近似值函数vπ(s).μ(s)是花费在s,它衡量了状态的“重要性”s在VE¯(w).
在(9.4)中,它声明了一个更新规则w通过梯度下降:
wt+1=w−12α∇[vπ(St)−v^(St,w)]2. (9.4)
我有两个关于 (9.4) 的问题。
- 为什么μ(s)不在 (9.4) 中?
- 为什么它是(9.4)中的“减号”而不是“+”?换句话说,为什么w−12α∇[vπ(St)−v^(St,w)]2代替w+12α∇[vπ(St)−v^(St,w)]2?