资格迹中迹衰减参数的用途
数据挖掘
强化学习
2022-03-11 16:55:25
1个回答
资格迹的美妙之处在于它概括和统一了 TD 和 Monte-Carlo 方法。
当 时lambda=0,只会更新当前状态,因为对于其他状态,资格跟踪将为 0,并且不会更新。这将是一个 TD 更新。
对于较大的 值0 < lambda < 1,更多的先前状态被更改,但是由于资格迹的衰减属性,每个在时间上更远的状态更改较少。
当 时lambda=1,将更新前面具有正资格跟踪的状态。这允许我们通过后向视图来实现蒙特卡罗更新方法。资格跟踪允许我们向后看并执行更新到前面的状态。在这里,衰减参数用于实现蒙特卡罗更新的折扣奖励设置。资格跟踪的这种属性也将允许我们使用蒙特卡罗方法来继续任务。
其它你可能感兴趣的问题
