我正在阅读这些幻灯片。在第 38 页,给出了 TD(0) 的线性函数逼近参数的更新。我对此有疑问。成本函数 (RMSE) 在第 37 页给出。
我的疑问是:为什么梯度是关于参数不考虑?
我认为参数更新应该是:
取而代之的是,它在材料中给出:-
有人可以解释一下吗?
我正在阅读这些幻灯片。在第 38 页,给出了 TD(0) 的线性函数逼近参数的更新。我对此有疑问。成本函数 (RMSE) 在第 37 页给出。
我的疑问是:为什么梯度是关于参数不考虑?
我认为参数更新应该是:
取而代之的是,它在材料中给出:-
有人可以解释一下吗?
这正式称为半梯度方法。
我们想做的是最小化, 在哪里 是真值函数。这将给出梯度下降更新
当然我们无权访问. 因此,我们可以使用蒙特卡洛回报(观察到的、贴现的、偶发的回报)。另一种选择是使用自举估计,例如估计,这将提供更新
正如您正确指出的那样,方程式。2 不再是真正的梯度下降法。直接引用 Sutton 和 Barto,第 9.3 节第 165 页,
这一步 [Eq. 如果使用自举估计代替 v(S),则 1] 将无效。自举方法实际上并不是真正的梯度下降实例(Barnard,1993)。他们考虑了改变权重向量 w 对估计的影响,但忽略了它对目标的影响。它们只包括梯度的一部分,因此,我们称它们为半梯度方法。
这里的“估计”是指,而“目标”是(或其近似值)。实际上,您提供的参数更新将是真正的梯度下降更新,以最小化