在他们的 wiki 页面上,Stan 的开发者说:
一些我们不喜欢的原则:不变性、Jeffreys、熵
相反,我看到了很多正态分布建议。到目前为止,我使用了不依赖采样的贝叶斯方法,并且很高兴能理解为什么是二项似然的不错选择。
在他们的 wiki 页面上,Stan 的开发者说:
一些我们不喜欢的原则:不变性、Jeffreys、熵
相反,我看到了很多正态分布建议。到目前为止,我使用了不依赖采样的贝叶斯方法,并且很高兴能理解为什么是二项似然的不错选择。
这当然是一群有着不同意见的人聚在一起写一个维基。我总结了我知道/理解的一些评论:
基于计算便利性选择你的先验是一个不充分的理由。例如,仅仅因为它允许共轭更新而使用 Beta(1/2, 1/2) 并不是一个好主意。当然,一旦你断定它对于你所处理的问题类型具有良好的特性,那很好,你也可以做出一个使实现变得容易的选择。有很多示例,其中方便的默认选择被证明是有问题的(请参阅启用 Gibbs 采样的 Gamna(0.001, 0.001) 先验)。
使用 Stan - 与 WinBUGS 或 JAGS 不同 - (有条件地)共轭先验没有特别的优势。因此,您可能会稍微忽略计算方面。不完全是,因为有非常重的尾先验(或不正确的先验)和不能很好地识别参数的数据,你会遇到问题(不是真正的 Stan 特定问题,但 Stan 非常擅长识别这些问题并警告用户而不是愉快地采样)。
Jeffreys 和其他“低信息”先验有时可能是不合适的,或者在高维(没关系推导它们)和稀疏数据中有点难以理解。可能只是这些问题经常给作者带来麻烦,让他们永远无法适应。一旦你在某件事上工作,你就会学到更多东西并感到舒服,因此偶尔会发生意见逆转。
在稀疏数据设置中,先验确实很重要,如果您可以指定参数的完全不可信的值是不可信的,这将有很大帮助。这激发了弱信息先验的想法——不是真正完全信息丰富的先验,而是最支持合理值的先验。
实际上,如果我们有大量数据可以很好地识别参数(可以只使用最大似然),您可能想知道为什么要为无信息的先验而烦恼。当然,有很多原因(避免病理,获得后验的“真实形状”等),但在“大量数据”的情况下,似乎没有真正的论据来反对信息量不足的先验。