为什么建议不要对 MCMC 采样器使用 Jeffreys 或基于熵的先验?

机器算法验证 贝叶斯 马尔可夫链蒙特卡罗 事先的 pymc 斯坦
2022-03-23 00:10:48

他们的 wiki 页面上,Stan 的开发者说:

一些我们不喜欢的原则:不变性、Jeffreys、熵

相反,我看到了很多正态分布建议。到目前为止,我使用了不依赖采样的贝叶斯方法,并且很高兴能理解为什么θBeta(α=12,β=12)是二项似然的不错选择。

2个回答

这当然是一群有着不同意见的人聚在一起写一个维基。我总结了我知道/理解的一些评论:

  • 基于计算便利性选择你的先验是一个不充分的理由。例如,仅仅因为它允许共轭更新而使用 Beta(1/2, 1/2) 并不是一个好主意。当然,一旦你断定它对于你所处理的问题类型具有良好的特性,那很好,你也可以做出一个使实现变得容易的选择。有很多示例,其中方便的默认选择被证明是有问题的(请参阅启用 Gibbs 采样的 Gamna(0.001, 0.001) 先验)。

  • 使用 Stan - 与 WinBUGS 或 JAGS 不同 - (有条件地)共轭先验没有特别的优势。因此,您可能会稍微忽略计算方面。不完全是,因为有非常重的尾先验(或不正确的先验)和不能很好地识别参数的数据,你会遇到问题(不是真正的 Stan 特定问题,但 Stan 非常擅长识别这些问题并警告用户而不是愉快地采样)。

  • Jeffreys 和其他“低信息”先验有时可能是不合适的,或者在高维(没关系推导它们)和稀疏数据中有点难以理解。可能只是这些问题经常给作者带来麻烦,让他们永远无法适应。一旦你在某件事上工作,你就会学到更多东西并感到舒服,因此偶尔会发生意见逆转。

  • 在稀疏数据设置中,先验确实很重要,如果您可以指定参数的完全不可信的值是不可信的,这将有很大帮助。这激发了弱信息先验的想法——不是真正完全信息丰富的先验,而是最支持合理值的先验。

  • 实际上,如果我们有大量数据可以很好地识别参数(可以只使用最大似然),您可能想知道为什么要为无信息的先验而烦恼。当然,有很多原因(避免病理,获得后验的“真实形状”等),但在“大量数据”的情况下,似乎没有真正的论据来反对信息量不足的先验。

  • 可能有点奇怪的是,对于许多应用来说,N(0, 1) 是逻辑、泊松或 Cox 回归中系数的惊人先验。例如,这非常近似于在许多临床试验中观察到的治疗效果的分布。

他们没有为此提供任何科学/数学依据。大多数开发人员不研究这种先验,他们更喜欢使用更实用/启发式的先验,例如具有较大方差的正常先验(在某些情况下可能会提供信息)。然而,有点奇怪的是,在他们开始研究这个主题之后,他们乐于使用基于熵(KL 散度)的 PC 先验。

WinBUGS也出现了类似的现象,当时开发者推荐Gamma(0.001,0.001)作为精度参数的非信息性先验,因为它类似于 Jeffreys 先验的形状。此先验成为精度参数的默认先验。后来,(盖尔曼!)证明它们可以提供大量信息。