PSIS-LOO交叉验证的直观解释

机器算法验证 贝叶斯 交叉验证 斯坦
2022-03-21 21:33:02

一段时间以来,我一直在使用 Pareto 平滑重要性抽样 (PSIS-LOO) 交叉验证进行诊断并比较符合 Stan/brms的贝叶斯模型。根据我在合成数据和真实数据上使用它的经验,它似乎表现得非常好。所以,自然地,我想正确理解该方法。我不是来自定量背景,大约一年前我才进入贝叶斯统计,从那时起我一直在追赶。无论如何,我已经尝试研究重要性抽样并阅读了 Vehtari & Gelman (2015) 的原始论文几次,但我仍然无法真正将这些点联系起来。我觉得我对重要性采样有了基本的了解,但我仍然不明白它如何用于评估后验预测密度。

有人对 PSIS-LOO 有直观的解释吗?它有什么作用以及为什么起作用?理想情况下,使用尽可能少的公式。谢谢!

1个回答

我是科学家,不是统计学家,但鉴于这个问题被问到已经快一年了,仍然没有得到任何答案,我会尽我所能提供一些见解。欢迎对我的答案进行修订/更正,因为我也花费了大量时间和精力来试图弄清楚这篇论文。我会在这里提到,我也对这种方法的性能感到满意,并鼓励任何阅读此答案的人试一试,如果您还没有的话。

从头开始:当您对概率分布感兴趣时,重要性抽样很有用f(x)但由于计算和/或实际限制,无法使用 MCMC 从中采样。幸运的是,您可以改为从近似分布中采样g(x)并使用这些样本来推断f(x). 为此,只需将每个样本的重量调整为f(x)/g(x). 原则上,这种调整纠正了 1) 在抽样分布中更普遍的样本的过度代表性g(x)比目标分布f(x), 和 2) 很少见的样本的代表性不足g(x)但常见于f(x).

通常描述的关于重要性抽样的问题来自第二组样本。根据抽样分布和目标分布之间的重叠,在g(x)但常见于f(x)将具有巨大的重要性权重,并将强烈影响您对目标分布的组成所做的任何推论f(x). 通常,结果分布的尾部是不稳定的。根据我的理解,PSIS 论文的主要贡献是观察到这些权重遵循帕累托原则,有时称为“80/20 规则”(尽管本例中的数字是任意的)。因此,作者证明您可以将它们拟合到广义的帕累托分布,而不是从表面上看这些权重,从而平滑它们的值并消除通常通过重要性抽样观察到的许多这些问题。

那么这与留一法交叉验证(LOO-CV)有什么关系呢?回顾 LOO-CV,您通常对通过迭代数据集、删除数据点和重复分析(例如 MCMC 采样)来收集有关模型的不确定性统计数据感兴趣。我们中的大多数人会将这个过程的繁琐性(即重采样步骤)描述为“计算和/或实际约束”,而本文的作者似乎也同意这一点。他们的解决方案是完全跳过重采样,而是使用 PSIS 重新加权第一次使用完整数据集获得的样本,从而节省大量时间,同时仍提供感兴趣的不确定性统计数据。正如他们所展示的,这提供了与经典 LOO-CV 几乎相同的结果,但计算量要低得多。

总结 PSIS-LOO:

  1. 使用完整的数据集从抽样分布中生成大量样本g(x).
  2. 遍历每个数据点并将其从数据集中删除。
  3. 使用帕累托平滑重要性抽样将第一步中获得的样本重新加权到这个新的目标分布f(x).
  4. 在对完整数据集重复之后,像以前一样使用 LOO-CV 计算参数统计信息。

同样,如果您是阅读本文的统计学家并且您认为“这个答案是错误的”,那么我将不胜感激任何更正、修订或附录。