人工智能 - 在在线一步演员评论中，为什么权重更新随着剧集的进展变得不那么重要？ - 吾爱随笔录

在在线一步演员评论中，为什么权重更新随着剧集的进展变得不那么重要？

人工智能机器学习强化学习折扣因子演员批评方法

2021-11-13 12:41:00

Richard Sutton 等人的《强化学习书》第 13.5 节展示了一种在线演员评论算法。

为什么权重更新取决于折扣因子 $I$ ?

似乎我们越接近这一集的结尾，我们就越不重视我们的最新体验 $\delta$ .

这对我来说似乎很奇怪。我认为在递归公式中打折 $\delta$ 本身就足够了。

为什么随着情节的进展权重更新变得不那么重要了？ 请注意，这不是资格跟踪，因为这些将在同一集中稍后单独讨论。

1个回答

后期值的这种“衰减”是 REINFORCE 目标函数的情节公式的直接结果：

J (θ) = v_{π_{θ}} (s_{0})

$J(\theta) = v_{\pi_\theta}(s_0)$

也就是说，从情节的第一个状态获得的预期回报。这是您在问题中链接的书籍版本中的方程 13.4。

换句话说，如果有任何折扣，我们不太关心剧集后面看到的奖励。我们主要关心代理从其起始位置会做得如何。

这不适用于所有策略梯度的公式。还有其他相关的目标函数选择。我们可以将目标函数表述为关心任何状态分布的回报，但为了很好地定义它，我们确实需要以某种方式描述权重/分布，它应该与问题相关，并且我们希望能够得到近似样本 $\nabla J(\theta)$ 政策梯度发挥作用。您所询问的算法专门用于改进偶发问题的策略。注意你可以设置 $\gamma = 1$ 对于这些问题，不一定需要衰减。

顺便说一句（因为有人一定会问）：定义 $J(\theta)$ 对于所有国家，同等加权可能会导致困难，例如，目标将较少考虑政策避免不良状态的能力，并且需要来自可能不相关的国家的大量样本来估计它。这些困难将变成难以计算（或者可能是不可能）的期望 $\nabla J(\theta)$

其它你可能感兴趣的问题

上一篇有没有办法理解句子的类型？下一篇如何将基于表格的 Q 学习转换为基于神经网络的 Q 学习？