在具有线性函数逼近的 TD(0) 中,为什么v^(小号', w )v^(S′,w)参数ww不考虑?

人工智能 强化学习 价值函数 函数逼近 权重 时差法
2021-10-23 12:58:46

我正在阅读这些幻灯片在第 38 页,给出了 TD(0) 的线性函数逼近参数的更新。我对此有疑问。成本函数 (RMSE) 在第 37 页给出。

我的疑问是:为什么梯度是v^(S,w)关于参数w不考虑?

我认为参数更新应该是:

ww+α[R+γv^(S,w)v^(S,w)](v^(S,w)γv^(S,w))
取而代之的是,它在材料中给出:-
ww+α[R+γv^(S,w)v^(S,w)]v^(S,w)

有人可以解释一下吗?

1个回答

这正式称为半梯度方法

我们想做的是最小化(v(S)v^(S,w))2, 在哪里 v(S)是真值函数。这将给出梯度下降更新

(1)ww+α[v(S)v^(S,w)]v^(S,w).
当然我们无权访问v(S). 因此,我们可以使用蒙特卡洛回报(观察到的、贴现的、偶发的回报)。另一种选择是使用自举估计v(S),例如估计r+γv^(S,w),这将提供更新

(2)ww+α[r+γv^(S,w)v^(S,w)]v^(S,w)

正如您正确指出的那样,方程式。2 不再是真正的梯度下降法。直接引用 Sutton 和 Barto,第 9.3 节第 165 页,

这一步 [Eq. 如果使用自举估计代替 v(S),则 1] 将无效。自举方法实际上并不是真正的梯度下降实例(Barnard,1993)。他们考虑了改变权重向量 w 对估计的影响,但忽略了它对目标的影响。它们只包括梯度的一部分,因此,我们称它们为半梯度方法。

这里的“估计”是指v^(S,w),而“目标”是v(S)(或其近似值)。实际上,您提供的参数更新将是真正的梯度下降更新,以最小化(r+γv^(S,w)v^(S,w))2