如何证明重要性采样率与动作值(或状态值)估计不相关?

人工智能 证明 策略外方法 萨顿巴托 重要性抽样 无模型方法
2021-11-10 09:32:25

在 Sutton & Barto(第 2 版)中,第 150 页(pdf 第 172 页)第 7.4 节提到了以下内容

重要性采样率的期望值为 1(第 5.9 节)并且与估计值不相关。

我们如何证明重要性采样率与估计值不相关?

1个回答

Sutton 和 Barto在 5.9 节中自行解释我发布了一些上下文。您正在寻找的等式是 5.13节选 5.9