资格迹中迹衰减参数的用途

数据挖掘 强化学习
2022-03-11 16:55:25

在 TD/SARSA-lambda 中,合格迹线在每一步之后通过乘以贴现率和迹线衰减参数而衰减。

资格跟踪更新

我明白那个:

  • 贴现率用于降低未来行动相对于状态的价值。
  • 资格跟踪应该随着时间的推移而衰减,因为它代表了状态-动作对对获得的奖励的“责任”程度。

我不明白为什么需要跟踪衰减参数,因为在每一步之后乘以贴现率会导致它随着时间的推移而衰减。trace-decay 参数为算法添加了什么?

1个回答

资格迹的美妙之处在于它概括和统一了 TD 和 Monte-Carlo 方法。

当 时lambda=0,只会更新当前状态,因为对于其他状态,资格跟踪将为 0,并且不会更新。这将是一个 TD 更新。

对于较大的 值0 < lambda < 1,更多的先前状态被更改,但是由于资格迹的衰减属性,每个在时间上更远的状态更改较少。

当 时lambda=1,将更新前面具有正资格跟踪的状态。这允许我们通过后向视图来实现蒙特卡罗更新方法。资格跟踪允许我们向后看并执行更新到前面的状态。在这里,衰减参数用于实现蒙特卡罗更新的折扣奖励设置。资格跟踪的这种属性也将允许我们使用蒙特卡罗方法来继续任务。