具有比率估计器的最优重要性抽样

机器算法验证 采样 无偏估计器 重要性 最小方差
2022-03-28 20:04:30

我们想要近似以下期望:

E[h(x)]=h(x)π(x)dx
在哪里h(x)是一个任意函数并且π(x)是一个分布,同样为简单起见,让我们假设我们实际上知道归一化常数π(x). 当然,我们希望从最优提案分布中进行抽样:
g(x)=|h(x)|π(x)Z
但当然,这不是我们可以从中采样的形式,我们甚至无法计算重要性权重,因为我们需要知道Z
w(x)=Z π(x)|h(x)|π(x)
但是,如果我们假设g(x)可以从中采样,我们可以使用比率重要性采样估计器吗?:
w(x)h(x)g(x)dxw(x)g(x)dx
为了清楚起见,估计量也可以写成{x(i)}i=1N是一组来自密度分布的样本g(x)(神奇地)。我们让
w(x(i))=1|h(x(i))|
进行最终估计:
E[h(x)]i=1Nw(x(i))h(x(i))i=1Nw(x(i))

那么,上述估计量是否是渐近无偏(一致)的?还是我错过了什么?如果它确实是无偏的,那么这是否可以与蒙特卡洛方法结合使用以从g(x),因为它们可以(理论上)用于从任何已知到归一化常数的分布中进行采样。

编辑:修正了一个错字,而且,我能够证明这是一致的,所以我的新问题是:这是个好主意吗?有没有论文分析这个?它有标准名称吗?

1个回答

这是一个有趣的[并且与“愚蠢”相去甚远]的问题,实际上困扰了我一段时间!我们在蒙特卡洛统计方法(第 3.3.2 节,第 95-96 页)中对其进行了介绍。关键在于,通过除以权重之和,最优性消失了。其实很容易看出什么时候h是正函数。在这种情况下,

w(x)h(x)=1
w(x)=1h(x)
所以
E[h(X)]^=11ni=1n1h(xi)
这是可怕的调和平均估计器(另请参阅Radford Neal 的这篇伟大而权威的帖子)。估计量是一致的(在大数定律的意义上),但它可能具有无限方差(这使我们与原始估​​计量的最小方差最优性相去甚远!)。

最优性不转移的根本原因是比率的方差与原始重要性采样估计的方差有很大不同,因此没有针对相同的重要性函数进行优化。可悲的是,由于比率的方差没有封闭形式的表达式(只有 delta 方法的近似值可用),因此最优解没有明确的结果g. 当然,可以对顶部和底部使用不同的最佳重要性函数,但这在实践中没有任何意义!