Richard Sutton 等人的《强化学习书》第 13.5 节展示了一种在线演员评论算法。
为什么权重更新取决于折扣因子?
似乎我们越接近这一集的结尾,我们就越不重视我们的最新体验.
这对我来说似乎很奇怪。我认为在递归公式中打折本身就足够了。
为什么随着情节的进展权重更新变得不那么重要了? 请注意,这不是资格跟踪,因为这些将在同一集中稍后单独讨论。
Richard Sutton 等人的《强化学习书》第 13.5 节展示了一种在线演员评论算法。
为什么权重更新取决于折扣因子?
似乎我们越接近这一集的结尾,我们就越不重视我们的最新体验.
这对我来说似乎很奇怪。我认为在递归公式中打折本身就足够了。
为什么随着情节的进展权重更新变得不那么重要了? 请注意,这不是资格跟踪,因为这些将在同一集中稍后单独讨论。
后期值的这种“衰减”是 REINFORCE 目标函数的情节公式的直接结果:
也就是说,从情节的第一个状态获得的预期回报。这是您在问题中链接的书籍版本中的方程 13.4。
换句话说,如果有任何折扣,我们不太关心剧集后面看到的奖励。我们主要关心代理从其起始位置会做得如何。
这不适用于所有策略梯度的公式。还有其他相关的目标函数选择。我们可以将目标函数表述为关心任何状态分布的回报,但为了很好地定义它,我们确实需要以某种方式描述权重/分布,它应该与问题相关,并且我们希望能够得到近似样本政策梯度发挥作用。您所询问的算法专门用于改进偶发问题的策略。注意你可以设置对于这些问题,不一定需要衰减。
顺便说一句(因为有人一定会问):定义对于所有国家,同等加权可能会导致困难,例如,目标将较少考虑政策避免不良状态的能力,并且需要来自可能不相关的国家的大量样本来估计它。这些困难将变成难以计算(或者可能是不可能)的期望