在《强化学习:介绍》(第 2 版)一书中,萨顿和巴托在第 104 页(pdf 的第 126 页)中定义了等式(5.3),重要性采样率,, 如下:
对于目标策略和行为政策.
但是,在第 103 页,他们指出:
目标政策[...] 可能是确定性的 [...]。
什么时候它给出了确定性和贪婪对于贪婪的动作,0 表示所有其他可能的动作。
那么,上面的公式怎么能给出除零以外的东西,除了政策的情况走一条路也会采取吗?如果任何选定的操作不同于的选择,则整个分子为零,因此整个结果。
在《强化学习:介绍》(第 2 版)一书中,萨顿和巴托在第 104 页(pdf 的第 126 页)中定义了等式(5.3),重要性采样率,, 如下:
对于目标策略和行为政策.
但是,在第 103 页,他们指出:
目标政策[...] 可能是确定性的 [...]。
什么时候它给出了确定性和贪婪对于贪婪的动作,0 表示所有其他可能的动作。
那么,上面的公式怎么能给出除零以外的东西,除了政策的情况走一条路也会采取吗?如果任何选定的操作不同于的选择,则整个分子为零,因此整个结果。
你是对的,当目标策略是确定性的,重要性采样率将是沿着行为策略所在的轨迹碰巧采取了同样的行动会采取,并转向立刻犯了一个“错误”(选择一个动作不会选择)。
在书中介绍重要性抽样之前,我相信你会看到的唯一离策略方法是一步-学习,它只能将观察结果传播回来正好一步。使用重要性采样率,您通常可以做得更好。你是对的,它有转向的风险相当快(尤其是当和彼此非常不同),此时它基本上会“截断”您的轨迹并忽略所有后续经验……但这仍然比一步好,比率有可能保持不变至少几步。它偶尔仍然只允许-step 返回,但有时也会返回-step 返回,有时-step return 等,这通常比只有步返回。
每当重要性采样率不,它还可以更加强调由在以下情况下常见的轨迹产生的观察结果,但不常见于. 这样的轨迹将有一个比率. 更多地强调这些轨迹可能是有益的,因为它们不会经常在,因此如果没有额外的强调,可能很难正确了解在以下情况下会发生什么.
当然,还值得注意的是,您的引文说(强调我的):
目标政策[...]可能是确定性的 [...]
它说 可能是确定性的(实际上它经常是,因为我们经常采取成为贪婪的政策)......但有时它不会。对于我们选择的情况,使用重要性采样率的整个方法也得到了很好的定义 不是确定性的。在这种情况下,我们通常能够在更长的轨迹上传播观察结果(尽管在选择极不可能的动作, 但很有可能根据)。
好问题。我认为这本书的这一部分没有得到很好的解释。
政策外评估本身没有意义,IMO。
我认为这里有两种情况
是如果是确定性的,就像我们在“控制”的情况下可能想要的那样,即我们将确定是确定性的,并在每个状态下选择最有可能最大化奖励/回报的行动。在这种情况下,然后评估来自不同的发行版可能没有那么有用,因为变成可能性很大。我看不出有任何意义。
如果不是确定性的。这是一个很好的问题,为什么我们要评估从, 而不是仅仅从直接地。
所以,IMO,离政策评估没有任何意义。
但是,我认为这里的目标实际上是书中给出的控制算法(使用,页。书的 111 [pdf 的 133])。这里的想法是使用一些任意行为/探索性策略,并在运行时更新(“控制”)策略. 在那里,您使用更新规则,它使用了重要性采样的思想——即如何更新期望值基于. 但它实际上是有道理的。
所以,我怀疑评估是自己给出的,只是为了让读者更好地理解如何进行评估,尽管在控制算法之外它真的没有意义。