贝叶斯和频率优化和区间

机器算法验证 贝叶斯 置信区间 优化 常客 可信区间
2022-04-04 08:18:54

我意识到频率派和贝叶斯派所追求的方法论通常不同。然而,他们共享的一种估计方法是优化某个函数:

  • 频率论者最大化似然函数,给出最大值。似然 (ML) 估计器。
  • 贝叶斯最大化后验函数,给出 Max A-Posteriori (MAP) 估计量。

这两个函数通常都是使用 Baye 规则/定理构建的,这是普遍认可的,并且可能已经应用一次(在“批处理模式”中)或迭代多次。

同样,频率论者和贝叶斯论者都会从这个函数中推断出他们的区间(置信度/可信度)。

因此,如果先验是无信息的(假设我们可以制定这样的先验),贝叶斯和频率主义者获得的“结果”之间应该没有区别,即使对所述结果的解释会有所不同。

如果这是正确的,那么贝叶斯主义者和频率主义者之间唯一的实际区别就是先验。这是真的?


编辑:

实际上,我的问题的优化位有点误导,因为它只是贝叶斯和频率主义思维之间差异的一个具体例子。我的问题可以简单地提出为似然函数和后验之间的区别。例如,常客会使用 MCMC 来计算似然函数吗?

编辑,10 年后:这是一个困惑的学生提出的一个困惑的问题。公平地说,这个话题往往会使外行感到困惑。感谢所有参与讨论的人。

2个回答

最大后验 (MAP) 方法并不是真正的完全贝叶斯方法,理想情况下,推断应该涉及对整个后验进行边缘化。优化是统计中万恶之源;不优化很难过拟合!;o) 因此,如果您选择完全贝叶斯解决方案,贝叶斯和常客之间的实际差异会更加深入,尽管通常会有一个先验结果在数值上与常客方法相同。

但是,可信区间和置信区间是不同问题的答案,不应被视为可互换,即使它们恰好在数值上相同。将常客置信区间视为贝叶斯可信区间可能会导致解释问题。

更新“我的问题可以简单地提出为似然函数和后验之间的区别。”

不,概率的定义不同,这意味着即使解决方案在数值上相同,但这并不意味着它们的含义相同。这是一个实际问题,也是一个概念问题,因为对结果的正确解释取决于概率的定义。

面面相觑,如果问题的答案是“是”,那就意味着常客只是贝叶斯主义者,总是对所有事情都使用平坦(通常是不正确的)先验。我怀疑许多常客会同意这一点!;o)

我同意粗略地说你是对的。先验信息是否提供信息将导致不同的解决方案。当数据主导先验时,解决方案将收敛。此外,Jeffreys 在某些情况下需要不正确的先验来将贝叶斯结果与常客结果相匹配。真正的区别和争议是哲学上的。频率论者希望客观。先验会带来主观意见。遵循 Di Finetti 教义的贝叶斯主义者认为概率是主观的。对于真正的贝叶斯先验应该提供信息。与概率的不同概念相关的另一点是,根据贝叶斯,概率可以分配给未知参数,而频率论者严格按照 Kolmogorov 和 von Mises 开发的理论中给出的概率空间进行思考。对于常客来说,只有您可以在概率空间上定义的随机变量具有与其结果相关的概率。因此,抛硬币正面朝上的概率是 1/2,因为随着样本量接近无穷大,反复抛硬币会导致正面朝上的相对频率收敛到 1/2。

对于常客来说,贝叶斯定理适用于概率空间中的可测集事件。贝叶斯将其应用于参数,就好像参数是随机变量一样。这就是常客对贝叶斯方法的反对。贝叶斯主义者反对常客方法,因为它缺乏称为连贯性的属性。我不会在这里详细介绍,但您可以在互联网上查找定义或阅读 Dennis Lindley 的书籍。