时差更新规则的推理

数据挖掘 机器学习 强化学习 在线学习
2022-02-25 04:29:46

在 TD(0) 学习中,价值函数由下式给出V(s)=wTϕ(s)在哪里w是一个权重向量并且ϕ是一个特征图,权重更新由下式给出wt+1=wt+ηδt+1ϕ(st), 在哪里η是学习率和δ是时间差误差。时间差误差由下式给出δt+1=rt+γVt+1Vt, 在哪里r是奖励和γ是折扣因子。请注意,权重更新与旧状态特征成正比。这个更新规则可以认为是试图使Vt更接近rt+γVt+1使价值函数更加自洽。

但是,也可以使值γVt+1更接近Vtrt通过制定权重更新规则wt+1=wtηγδt+1ϕ(st+1). 也可以在中间做一些事情,比如wt+1=wt+η2δt+1(ϕ(st)1γϕ(st+1)).

这些是可行的权重更新规则吗?如果不是,为什么?这些更新规则对应的学习算法有哪些属性?

1个回答

首先,权重更新是使用梯度下降得出的。所以正确的更新形式是你拥有的第一个。这是使用数学得出的,并且满足更新旨在最小化真实值和近似值之间的均方误差。对于真实值,我们使用下一个时间步的真实值的偏差样本加上当前时间步获得的奖励:rt+γv^t+1这是您的 TD 目标(您尝试近似的目标)。因此,带有 FA 的 RL 中的棘手部分是您尝试逼近同样是真实数量的近似值。

我不太确定使 γVt+1 的值更接近 Vt−rt 是什么意思。对于线性近似,正如您在问题开始时所说,更新需要具有以下形式以减少真值函数的 MSE:Δw=η(vπv^w)ϕ(s). 正如我上面提到的,因为在 RL 中我们不知道真实值,而只有奖励信号,所以我们将目标(真实值)替换为我在上一段中描述的目标形式。

您的第一个建议更新首先消除了折扣因子,该因子确保在无限视野场景中,奖励总和收敛为实际值而不是无穷大。即使您考虑情节任务,符号变化也会使您的权重更新到不遵循 MSE 梯度的方向。在您的第二次更新中,您再次使用任意规则进行更新,而不是通过梯度下降得出。顺便说一句,将学习率减半在任何意义上都没有帮助,因为您可以再次定义一个新的学习率。

我建议您参考这些文档,您可以在其中阐明更新规则是如何定义的,为什么它具有这种特定形式,最优标准是什么以及折扣因子在 RL 中的作用:

带有 FA 的 RL , 2.3 最优性标准和贴现

希望这可以帮助!