最大似然何时对应于参考先验?

机器算法验证 贝叶斯 估计 最大似然 事先的 最大熵
2022-03-06 21:49:45

我一直在阅读 James V. Stone 的非常好的书籍《贝叶斯法则》和《信息论》。我想知道书的哪些部分我不明白,因此需要进一步重新阅读。我写下的以下注释似乎自相矛盾:

  1. MLE 总是对应于统一先验(统一先验的 MAP 就是 MLE)。
  2. 有时统一的先验是不可能的(当数据缺少上限或下限时)。
  3. 使用 MLE 而不是 MAP 的非贝叶斯分析基本上回避或忽略了对先验信息建模的问题,因此总是假设没有先验信息。
  4. 非信息性(也称为参考)先验对应于最大化后验和先验之间的 Kullback-Leibler 散度,或者等效于参数和随机变量之间的互信息。θX
  5. 有时参考先验并不统一,它也可以是 Jeffreys 先验。
  6. 贝叶斯推理总是使用 MAP,非贝叶斯推理总是使用 MLE。

问题:以上哪个是错误的?

即使非贝叶斯分析并不总是对应于“总是使用 MLE”,那么 MLE 估计是否总是对应​​于贝叶斯推理的特殊情况?

如果是这样,在什么情况下是特殊情况(统一或参考先验)?

根据 CrossValidated 上对问题[1] [2] [3] [4]的回答,似乎 1. 以上是正确的。

我问的上一个问题的共识似乎是非贝叶斯分析不能简化为贝叶斯分析的特例。因此我的猜测是上面的 6. 是不正确的。

2个回答
  1. 正确,只要统一先验的支持包含 MLE。原因是后验和似然在统一先验的支持上成正比。即使 MAP 和 MLE 在数值上一致,它们的解释也是完全不同的。
  2. 错误的。先验的支持当然取决于位置和尺度(例如,如果数据以纳米或秒差距报告),但通常可以做出适当的选择。您可能需要使用一个巨大的紧凑集作为支撑,但它仍然是可能的。
  3. 它不使用先验分布意义上的先验信息(因为它们是完全不同的推理方法),但总是有用户注入的信息。模型的选择是先验信息的一种形式。如果你让 10 个人来拟合一个数据集,他们中的一些人可能会得出不同的答案。
  4. 是的。看看下面的参考资料

参考先验的正式定义

杰弗里斯先验和参考先验

  1. 参考先验和杰弗里斯先验在单参数模型(一维参数)中是相同的,但一般情况并非如此。它们对于位置参数是统一的,但对于比例和形状参数则不是这样。即使对于正态分布的尺度参数,它们也是不同的(参见我以前的参考资料)。

  2. 错误的。真正的贝叶斯主义者使用后验分布来获得贝叶斯估计量。MAP 就是其中之一,但还有很多其他的。请参阅Wikipedia 关于贝叶斯估计器的文章

非贝叶斯主义者并不总是使用 MLE。一个例子是James-Stein 估计器,它基于与最大化似然函数不同的标准。

除了Richard Price 提出的观点之外,还有一些评论

  1. MLE 总是对应于统一先验(统一先验的 MAP 就是 MLE)。

这是不正确的,因为一个简单但经常被忽视的原因:MLE 不需要对参数空间进行主导测量,而贝叶斯方法则需要。这意味着“the” flat(constant)prior 和“the” MAP 实际上都取决于主导度量的选择。另一种解释(已经在评论中提出)是 MLE 通过重新参数化是不变的,即在参数的任何双射变换下,而平坦先验在双射变换下不会保持恒定,并且 MAP 不是通过重新参数化保持不变。我对 MAP 的一般看法是它们不是贝叶斯程序。

  1. 有时统一的先验是不可能的(当数据缺少上限或下限时)。

这既正确又不正确。选择一个统一的先验 总是可能的,但需要选择如果先验密度在整个参数空间上是恒定的(相对于所选的主导度量),那么它不是均匀密度,因为它不是概率密度。然后先验变得不正确,即有限度量。U(a,b)abσ

  1. 使用 MLE 而不是 MAP 的非贝叶斯分析基本上回避或忽略了对先验信息建模的问题,因此总是假设没有先验信息。

这是一个太模糊的声明,无法验证或无效。正如 Richard Price 所指出的] 1,模型的选择是一种信息,例如,当引入随机效应时,它可能会变得越来越贝叶斯。此外,非贝叶斯分析本身并未定义为一种方法

  1. 非信息性(也称为参考)先验对应于最大化后验和先验之间的 Kullback-Leibler 散度,或者等效于参数 𝜃 和随机变量 𝑋 之间的互信息。

正确:在Bernardo (1979)Berger、Bernardo 和 Sun (2009)的特定意义上,参考先验正在最大化感兴趣的参数的先验和后验之间的预期 Kullback-Leibler 散度。由于在考虑适当的先验时这通常是不可能的,所以它变得复杂。

  1. 有时参考先验并不统一,它也可以是 Jeffreys 先验。

这又是一个模糊且不那么有用的陈述。出于与上述相同的原因,即在重新参数化下缺乏不变性,参考先验[假设所述先验的特定定义]几乎从不统一。Jeffreys 的方法在重新参数化下具有不变性,因为它的定义在参数化变化下是一致的。

  1. 贝叶斯推理总是使用 MAP,非贝叶斯推理总是使用 MLE。

这是不正确的,对于这两个部分。贝叶斯推理始终使用完整的后验分布,并且仅在需要决策并提供损失函数的情况下得出点估计等过程。MAP 估计不能用作决策理论程序非贝叶斯推理涵盖了推理问题的所有可能答案,因此无法表征。