当目标策略是确定性的时,重要性采样率如何不为零?

人工智能 强化学习 策略外方法 萨顿巴托 重要性抽样
2021-10-29 05:38:16

在《强化学习:介绍》(第 2 版)一书中,萨顿和巴托在第 104 页(pdf 的第 126 页)中定义了等式(5.3),重要性采样率,ρt:T1, 如下:

ρt:T1=k=tT1π(Ak|Sk)b(Ak|Sk)

对于目标策略π和行为政策b.

但是,在第 103 页,他们指出:

目标政策π[...] 可能是确定性的 [...]。

什么时候π它给出了确定性和贪婪1对于贪婪的动作,0 表示所有其他可能的动作。

那么,上面的公式怎么能给出除零以外的东西,除了政策的情况b走一条路π也会采取吗?如果任何选定的操作b不同于π的选择,则整个分子为零,因此整个结果。

2个回答

你是对的,当目标策略π是确定性的,重要性采样率将是1沿着行为策略所在的轨迹b碰巧采取了同样的行动π会采取,并转向0立刻b犯了一个“错误”(选择一个动作π不会选择)。

在书中介绍重要性抽样之前,我相信你会看到的唯一离策略方法是一步Q-学习,它只能将观察结果传播回来正好一步。使用重要性采样率,您通常可以做得更好。你是对的,它有转向的风险0相当快(尤其是当πb彼此非常不同),此时它基本上会“截断”您的轨迹并忽略所有后续经验……但这仍然比一步好,比率有可能保持不变1至少几步。它偶尔仍然只允许1-step 返回,但有时也会返回2-step 返回,有时3-step return 等,这通常比只有1步返回。

每当重要性采样率不0,它还可以更加强调由在以下情况下常见的轨迹产生的观察结果π,但不常见于b. 这样的轨迹将有一个比率>1. 更多地强调这些轨迹可能是有益的,因为它们不会经常在b,因此如果没有额外的强调,可能很难正确了解在以下情况下会发生什么π.


当然,还值得注意的是,您的引文说(强调我的):

目标政策π[...]可能是确定性的 [...]

它说π 可能是确定性的(实际上它经常是,因为我们经常采取π成为贪婪的政策)......但有时它不会。对于我们选择的情况,使用重要性采样率的整个方法也得到了很好的定义π 不是确定性的。在这种情况下,我们通常能够在更长的轨迹上传播观察结果(尽管在b选择极不可能的动作b, 但很有可能根据π)。

好问题。我认为这本书的这一部分没有得到很好的解释。

政策外评估V本身没有意义,IMO。

我认为这里有两种情况

  1. 是如果π是确定性的,就像我们在“控制”的情况下可能想要的那样,即我们将确定π是确定性的,并在每个状态下选择最有可能最大化奖励/回报的行动。在这种情况下,然后评估V来自不同的发行版可能没有那么有用,因为W变成0可能性很大。我看不出有任何意义。

  2. 如果π不是确定性的。这是一个很好的问题,为什么我们要评估VπVb, 而不是仅仅从Vπ直接地。

所以,IMO,离政策评估Vπ没有任何意义。

但是,我认为这里的目标实际上是书中给出的控制算法(使用q(s,a),页。书的 111 [pdf 的 133])。这里的想法是使用一些任意行为/探索性策略,并在运行时更新(“控制”)策略π. 在那里,您使用更新规则W,它使用了重要性采样的思想——即如何更新期望值π基于b. 但它实际上是有道理的。

所以,我怀疑评估是自己给出的,只是为了让读者更好地理解如何进行评估,尽管在控制算法之外它真的没有意义。