用于非策略价值评估的重要性抽样背后的直觉是什么?

人工智能 强化学习 策略外方法 重要性抽样
2021-10-27 02:22:16

离策略值评估的技术来自重要性抽样,它指出

Exq[f(x)]1ni=1nf(xi)q(xi)p(xi),
在哪里xi采样自p.

在将重要性采样应用于 RL 时,函数的期望是f相当于轨迹的值,由轨迹表示x?

分布p表示从行为策略和分布中采样轨迹的概率q表示从目标策略中采样轨迹的概率q?

分布轨迹如何q优于p? 我从等式中知道它有多好,但很难直观地理解为什么会这样。

3个回答

回想一下,我们的目标是能够通过计算从该状态开始的回报的样本平均值来准确估计每个状态的真实值:

vq(s)Eq[Gt|St=s]1ni=1nReturni
在哪里Returni是从获得的回报ith弹道。

问题是,不成立,因为在离策略学习中,我们通过遵循行为策略获得了这些回报,p,而不是目标策略,q.

为了解决这个问题,我们必须通过乘以重要性采样率来校正样本平均值中的每个回报。

vq(s)Eq[Gt|St=s]1ni=1nρiReturni

其中重要性采样率是:ρ=P( trajectory under q)P( trajectory under p)

这种乘法的作用是它增加了在目标政策下更有可能看到的回报的重要性q它减少了那些不太可能的人。因此,最终,在预期中,回报似乎是平均以下q.

(附注:为了避免混合的风险pq, 将行为政策表示/认为是一个好主意b目标策略为π,遵循 Sutton 和 Barto 的 RL 书中的约定。)

在将重要性采样应用于 RL 时,函数的期望是f相当于轨迹的值,由轨迹表示x?

我相信您在这里要问的是,如果在我们设置的非策略 RL 设置中使用重要性采样f(x)从一般重要性抽样公式作为我们的回报 - 答案是肯定的。与往常一样,我们有兴趣计算我们的预期回报。

分布轨迹如何q优于p? 我从等式中知道它有多好,但很难直观地理解为什么会这样。

我想你在这里得到了你的pq错误的方式,因为我们使用的样本来自p近似我们的政策q. 我们通常会使用重要性抽样来从与我们的目标策略不同的策略中生成样本,原因有几个——一个原因可能是我们的目标策略很难从中抽样,而从我们的行为策略中抽样p可能相对容易从中取样。另一个原因是我们通常想学习一个最优策略,但是如果我们没有进行足够的探索,这可能很难学习。所以我们可以遵循一些其他的策略,这些策略将充分探索,并且仍然通过重要性采样率了解我们的最优目标策略。

让我们修正一些符号:我们正在从行为策略中收集数据π0我们想评估一个政策π. 当然,如果我们有大量的政策数据π这将是评估的最佳方式π因为我们只取经验平均值(没有任何重要性抽样),CLT 给我们的置信区间缩小1n率。

但是,从收集数据π通常既耗时又昂贵:您可能需要在公司生产它,如果π很危险,在推出期间可能会造成一些损害。那么我们如何才能最好地利用来自任何政策的数据,不一定π, 评估π? 这是非策略评估的问题,你说得对,IS 是一种方法。

这张来自Thorsten 精彩演讲的图片很好地说明了为什么权重是无偏的在此处输入图像描述