在在线一步演员评论中,为什么权重更新随着剧集的进展变得不那么重要?

人工智能 机器学习 强化学习 折扣因子 演员批评方法
2021-11-13 12:41:00

Richard Sutton 等人的《强化学习书》第 13.5 节展示了一种在线演员评论算法。

为什么权重更新取决于折扣因子I?

似乎我们越接近这一集的结尾,我们就越不重视我们的最新体验δ.

这对我来说似乎很奇怪。我认为在递归公式中打折δ本身就足够了。

为什么随着情节的进展权重更新变得不那么重要了? 请注意,这不是资格跟踪,因为这些将在同一集中稍后单独讨论。

1个回答

后期值的这种“衰减”是 REINFORCE 目标函数的情节公式的直接结果:

J(θ)=vπθ(s0)

也就是说,从情节的第一个状态获得的预期回报。这是您在问题中链接的书籍版本中的方程 13.4。

换句话说,如果有任何折扣,我们不太关心剧集后面看到的奖励。我们主要关心代理从其起始位置会做得如何。

这不适用于所有策略梯度的公式。还有其他相关的目标函数选择。我们可以将目标函数表述为关心任何状态分布的回报,但为了很好地定义它,我们确实需要以某种方式描述权重/分布,它应该与问题相关,并且我们希望能够得到近似样本J(θ)政策梯度发挥作用。您所询问的算法专门用于改进偶发问题的策略。注意你可以设置γ=1对于这些问题,不一定需要衰减。

顺便说一句(因为有人一定会问):定义J(θ)对于所有国家,同等加权可能会导致困难,例如,目标将较少考虑政策避免不良状态的能力,并且需要来自可能不相关的国家的大量样本来估计它。这些困难将变成难以计算(或者可能是不可能)的期望J(θ)