人工智能 - 在具有线性函数逼近的 TD(0) 中，为什么v^(小号', w )v^(S′,w)参数ww不考虑？ - 吾爱随笔录

在具有线性函数逼近的 TD(0) 中，为什么v^(小号', w )v^(S′,w)参数ww不考虑？

人工智能强化学习价值函数函数逼近权重时差法

2021-10-23 12:58:46

我正在阅读这些幻灯片。在第 38 页，给出了 TD(0) 的线性函数逼近参数的更新。我对此有疑问。成本函数 (RMSE) 在第 37 页给出。

我的疑问是：为什么梯度是 $\hat v(S^{\prime}, \mathbf w)$ 关于参数 $w$ 不考虑？

我认为参数更新应该是：

w \leftarrow w + α [R + γ \hat{v} (S^{'}, w) - \hat{v} (S, w)] (\nabla \hat{v} (S, w) - γ \nabla \hat{v} (S^{'}, w))

$\mathbf w \leftarrow \mathbf w +\alpha [R + \gamma \hat v(S', \mathbf w) - \hat v(S, \mathbf w)] (\nabla \hat v(S, \mathbf w)- \gamma \nabla \hat v(S', \mathbf w))$ 取而代之的是，它在材料中给出：-

w \leftarrow w + α [R + γ \hat{v} (S^{'}, w) - \hat{v} (S, w)] \nabla \hat{v} (S, w)

$\mathbf w \leftarrow \mathbf w +\alpha [R + \gamma \hat v(S', \mathbf w) - \hat v(S, \mathbf w)] \nabla \hat v(S, \mathbf w)$

有人可以解释一下吗？

1个回答

这正式称为半梯度方法。

我们想做的是最小化 $\big(v(S) - \hat v(S, w)\big)^2$ ，在哪里 $v(S)$ 是真值函数。这将给出梯度下降更新

\begin{aligned} (1) & w \leftarrow w + α [v (S) - \hat{v} (S, w)] \nabla \hat{v} (S, w) . \end{aligned}

$\begin{align*} w \leftarrow w + \alpha[v(S) - \hat v(S, w)]\nabla \hat v(S, w) . \tag{1} \end{align*}$ 当然我们无权访问

v (S)

$v(S)$ . 因此，我们可以使用蒙特卡洛回报（观察到的、贴现的、偶发的回报）。另一种选择是使用自举估计

v (S)

$v(S)$ ，例如估计

r + γ \hat{v} (S^{'}, w)

$r + \gamma \hat v(S', w)$ ，这将提供更新

\begin{aligned} (2) & w \leftarrow w + α [r + γ \hat{v} (S^{'}, w) - \hat{v} (S, w)] \nabla \hat{v} (S, w) \end{aligned}

$\begin{align*} w \leftarrow w + \alpha[r + \gamma \hat v(S', w) - \hat v(S, w)]\nabla \hat v(S, w) \tag{2} \end{align*}$

正如您正确指出的那样，方程式。2 不再是真正的梯度下降法。直接引用 Sutton 和 Barto，第 9.3 节第 165 页，

这一步 [Eq. 如果使用自举估计代替 v(S)，则 1] 将无效。自举方法实际上并不是真正的梯度下降实例（Barnard，1993）。他们考虑了改变权重向量 w 对估计的影响，但忽略了它对目标的影响。它们只包括梯度的一部分，因此，我们称它们为半梯度方法。

这里的“估计”是指 $\hat v(S, w)$ ，而“目标”是 $v(S)$ （或其近似值）。实际上，您提供的参数更新将是真正的梯度下降更新，以最小化 $\big(r + \gamma \hat v(S', w) - \hat v(S, w)\big)^2$

其它你可能感兴趣的问题

上一篇为什么无监督预训练有助于深度学习？下一篇你什么时候会使用进化策略而不是基于步骤的强化学习