从不正确的分布中抽样(使用 MCMC 等)

机器算法验证 分布 贝叶斯 马尔可夫链蒙特卡罗 马尔科夫过程 不恰当的先验
2022-02-16 11:40:46

我的基本问题是:您将如何从不正确的分布中采样?从不正确的分布中取样是否有意义?

西安在这里的评论有点解决这个问题,但我一直在寻找更多细节。

更具体到 MCMC:

在谈论 MCMC 和阅读论文时,作者强调获得了适当的后验分布。有著名的Geyer (1992)论文,作者忘记检查他们的后验是否正确(否则是一篇优秀的论文)。

但是,假设我们有可能f(x|θ)和不正确的先验分布θ这样得到的后验也是不正确的,并且MCMC用于从分布中采样。在这种情况下,样本说明了什么?此示例中是否有任何有用的信息?我知道这里的马尔可夫链要么是瞬态的,要么是零循环的。如果它是null-recurrent,是否有任何积极的收获

最后,在 Neil G 的回答中,他提到

即使不正确,您通常也可以从后部采样(使用 MCMC)。

他提到这种采样在深度学习中很常见。如果这是真的,这有什么意义?

2个回答

从不适当的后验(密度)采样f从概率/理论的角度来看是没有意义的。原因是函数f在参数空间上没有有限积分,因此不能链接到(有限测度)概率模型(Ω,σ,P)(空间、sigma 代数、概率测度)。

如果您的模型具有不正确的先验导致不正确的后验,在许多情况下您仍然可以使用 MCMC 从中采样,例如 Metropolis-Hastings,并且“后验样本”可能看起来合理。乍一看,这看起来很有趣且自相矛盾。然而,这样做的原因是 MCMC 方法在实践中受限于计算机的数值限制,因此,所有支持对于计算机来说都是有界的(并且是离散的!)。然后,在这些限制(有界性和离散性)下,后验在大多数情况下实际上是正确的。

Hobert 和 Casella 提供了一个很好的参考资料,其中提供了一个示例(性质略有不同),您可以在其中为后验构造一个 Gibbs 采样器,后验样本看起来非常合理,但后验不合适!

http://www.jstor.org/stable/2291572

最近出现一个类似的例子。事实上,Hobert 和 Casella 警告读者,MCMC 方法不能用于检测后验的不当,并且在实施任何 MCMC 方法之前必须单独检查。总之:

  1. 一些 MCMC 采样器,例如 Metropolis-Hastings,可以(但不应该)用于从不正确的后验中采样,因为计算机会限制和离散化参数空间。只有拥有大量样本,才能观察到一些奇怪的东西。检测这些问题的能力还取决于采样器中使用的“乐器”分布。后一点需要更广泛的讨论,所以我宁愿把它留在这里。
  2. (霍伯特和卡塞拉)。您可以为具有不正确先验的模型构建 Gibbs 采样器(条件模型)这一事实并不意味着后验(联合模型)是正确的。
  3. 后验样本的正式概率解释需要后验的适当性。仅针对适当的概率分布/度量建立收敛结果和证明。

PS(有点开玩笑):不要总是相信人们在机器学习中所做的事情。正如 Brian Ripley 教授所说:“机器学习是统计数据减去对模型和假设的任何检查”。

从上面罗德的出色回答中给出一个替代的、更实用的观点——

在许多(如果不是大多数)情况下,后验的不当是为了方便而做出的选择的结果,而不是真正的“我绝对确定我的似然函数和先验分布,看看发生了什么!” 影响。鉴于此,我们不应该在应用工作中过于认真地对待不当行为,除非它会扰乱我们的计算正如某个著名的人(Huber?Tukey?)曾经观察到的那样,在不同的上下文中,标准 Cauchy 和截断的 Cauchy 之间的区别+/10100是不可检测的,但一个没有时刻,另一个有所有阶的时刻。

在这种情况下,如果我有一个下周末 AT&T 公园热狗需求的后验分布,上尾与1/x,这对于计算期望值的算法来说是个坏消息,但如果我将它截断为旧金山的估计人数,这个数字比实际上将在下周末在 AT&T 公园出售的热狗数量略大,一切都是好吧,至少就时刻的存在而言。在后一种情况下,您可以将其视为实际先验的一种两阶段应用——我用于计算的一个没有上限,它的“额外特征”等于零高于旧金山人口...”,在生成样本之后的一个步骤中应用了“额外功能”。真正的先验不是在 MCMC 计算中使用的先验(在我的示例中。)

因此,原则上我可以在应用工作中使用来自不正确分布的 MCMC 生成的样本,但我会非常关注这种不当行为是如何产生的,以及随机样本将如何受到它的影响. 理想情况下,随机样本不会受到它的影响,就像在我的热狗示例中一样,在合理的世界中,您实际上永远不会生成大于旧金山人数的随机数......

您还应该意识到,您的结果可能对导致其不正确的后验特征非常敏感,即使您稍后确实将其截断了很多(或任何适合您的模型的更改。 ) 你希望你的结果对轻微的变化具有鲁棒性,这些变化会使你的后部从不正确变为正确。这可能更难确保,但这是确保您的结果对您的假设稳健的更大问题的一部分,尤其是那些为方便起见的假设。