机器算法验证 - 为什么建议不要对 MCMC 采样器使用 Jeffreys 或基于熵的先验？ - 吾爱随笔录

为什么建议不要对 MCMC 采样器使用 Jeffreys 或基于熵的先验？

机器算法验证贝叶斯马尔可夫链蒙特卡罗事先的 pymc 斯坦

2022-03-23 00:10:48

一些我们不喜欢的原则：不变性、Jeffreys、熵

相反，我看到了很多正态分布建议。到目前为止，我使用了不依赖采样的贝叶斯方法，并且很高兴能理解为什么 $\theta \sim \text{Beta}\left(\alpha=\frac{1}{2},\beta=\frac{1}{2}\right)$ 是二项似然的不错选择。

2个回答

这当然是一群有着不同意见的人聚在一起写一个维基。我总结了我知道/理解的一些评论：

基于计算便利性选择你的先验是一个不充分的理由。例如，仅仅因为它允许共轭更新而使用 Beta(1/2, 1/2) 并不是一个好主意。当然，一旦你断定它对于你所处理的问题类型具有良好的特性，那很好，你也可以做出一个使实现变得容易的选择。有很多示例，其中方便的默认选择被证明是有问题的（请参阅启用 Gibbs 采样的 Gamna(0.001, 0.001) 先验）。
使用 Stan - 与 WinBUGS 或 JAGS 不同 - （有条件地）共轭先验没有特别的优势。因此，您可能会稍微忽略计算方面。不完全是，因为有非常重的尾先验（或不正确的先验）和不能很好地识别参数的数据，你会遇到问题（不是真正的 Stan 特定问题，但 Stan 非常擅长识别这些问题并警告用户而不是愉快地采样）。
Jeffreys 和其他“低信息”先验有时可能是不合适的，或者在高维（没关系推导它们）和稀疏数据中有点难以理解。可能只是这些问题经常给作者带来麻烦，让他们永远无法适应。一旦你在某件事上工作，你就会学到更多东西并感到舒服，因此偶尔会发生意见逆转。
在稀疏数据设置中，先验确实很重要，如果您可以指定参数的完全不可信的值是不可信的，这将有很大帮助。这激发了弱信息先验的想法——不是真正完全信息丰富的先验，而是最支持合理值的先验。
实际上，如果我们有大量数据可以很好地识别参数（可以只使用最大似然），您可能想知道为什么要为无信息的先验而烦恼。当然，有很多原因（避免病理，获得后验的“真实形状”等），但在“大量数据”的情况下，似乎没有真正的论据来反对信息量不足的先验。
可能有点奇怪的是，对于许多应用来说，N(0, 1) 是逻辑、泊松或 Cox 回归中系数的惊人先验。例如，这非常近似于在许多临床试验中观察到的治疗效果的分布。

他们没有为此提供任何科学/数学依据。大多数开发人员不研究这种先验，他们更喜欢使用更实用/启发式的先验，例如具有较大方差的正常先验（在某些情况下可能会提供信息）。然而，有点奇怪的是，在他们开始研究这个主题之后，他们乐于使用基于熵（KL 散度）的 PC 先验。

WinBUGS也出现了类似的现象，当时开发者推荐 $Gamma(0.001,0.001)$ 作为精度参数的非信息性先验，因为它类似于 Jeffreys 先验的形状。此先验成为精度参数的默认先验。后来，（盖尔曼！）证明它们可以提供大量信息。

其它你可能感兴趣的问题

上一篇在开始实验之前确定样本量还是无限期地运行实验？下一篇xgboost 如何在算法中使用权重