在 TD(0) 学习中,价值函数由下式给出在哪里是一个权重向量并且是一个特征图,权重更新由下式给出, 在哪里是学习率和是时间差误差。时间差误差由下式给出, 在哪里是奖励和是折扣因子。请注意,权重更新与旧状态特征成正比。这个更新规则可以认为是试图使更接近使价值函数更加自洽。
但是,也可以使值更接近通过制定权重更新规则. 也可以在中间做一些事情,比如.
这些是可行的权重更新规则吗?如果不是,为什么?这些更新规则对应的学习算法有哪些属性?
在 TD(0) 学习中,价值函数由下式给出在哪里是一个权重向量并且是一个特征图,权重更新由下式给出, 在哪里是学习率和是时间差误差。时间差误差由下式给出, 在哪里是奖励和是折扣因子。请注意,权重更新与旧状态特征成正比。这个更新规则可以认为是试图使更接近使价值函数更加自洽。
但是,也可以使值更接近通过制定权重更新规则. 也可以在中间做一些事情,比如.
这些是可行的权重更新规则吗?如果不是,为什么?这些更新规则对应的学习算法有哪些属性?
首先,权重更新是使用梯度下降得出的。所以正确的更新形式是你拥有的第一个。这是使用数学得出的,并且满足更新旨在最小化真实值和近似值之间的均方误差。对于真实值,我们使用下一个时间步的真实值的偏差样本加上当前时间步获得的奖励:这是您的 TD 目标(您尝试近似的目标)。因此,带有 FA 的 RL 中的棘手部分是您尝试逼近同样是真实数量的近似值。
我不太确定使 γVt+1 的值更接近 Vt−rt 是什么意思。对于线性近似,正如您在问题开始时所说,更新需要具有以下形式以减少真值函数的 MSE:. 正如我上面提到的,因为在 RL 中我们不知道真实值,而只有奖励信号,所以我们将目标(真实值)替换为我在上一段中描述的目标形式。
您的第一个建议更新首先消除了折扣因子,该因子确保在无限视野场景中,奖励总和收敛为实际值而不是无穷大。即使您考虑情节任务,符号变化也会使您的权重更新到不遵循 MSE 梯度的方向。在您的第二次更新中,您再次使用任意规则进行更新,而不是通过梯度下降得出。顺便说一句,将学习率减半在任何意义上都没有帮助,因为您可以再次定义一个新的学习率。
我建议您参考这些文档,您可以在其中阐明更新规则是如何定义的,为什么它具有这种特定形式,最优标准是什么以及折扣因子在 RL 中的作用:
希望这可以帮助!