重要性抽样中的异常值

机器算法验证 自习 异常值 重要性抽样
2022-03-25 12:13:59

我正在研究一个硬件问题,在该问题中我使用重要性抽样方法来估计(X)在哪里X作为标准拉普拉斯分布。为此,我选择我的提案密度作为标准法线。我成功编写了我的代码,我的估计非常合理。在部分问题中,我被问到“重要性抽样中哪种类型的异常值令人担忧”。如果您能指导我,我将不胜感激。

1个回答

这是我在 stackexchange 上的第一个答案,所以请随时指出我做错的任何事情。另外,我是学习这门学科的学生,所以我可能会犯错误。

让我们考虑一下在文献中通常缩写为 P(x)/Q(x) 的重要性权重。如果提案密度没有重尾而目标密度有,那么重要性权重将为 P(x) 中相对常见的值赋予非常大的重要性值,而在 Q(x) 中则少得多。随着 Q 变得非常小,P/Q 的比值变得非常大。这将导致异常值过度影响估计。

相反,如果提案有重尾,而目标没有,则估计不会严重扭曲,因为 P/Q 比率非常小,因此该样本的权重会很轻。这不是最优的,因为这样我们就没有整合这个样本信息的全部价值,但至少它不会导致估计量的严重失真。

TLDR:我认为当 P/Q 的比率非常大时,异常值是最差的,因为它们对估计量的影响最大。由于您的目标是拉普拉斯,它的尾巴比正常的要重,所以我不认为这会成为这种特定情况的问题。