频率论者-贝叶斯论者的争论到哪里去了?

机器算法验证 贝叶斯 常客 历史 哲学的
2022-02-12 02:30:15

统计世界分为常客和贝叶斯主义者。这些天来,似乎每个人都做了一点。怎么会这样?如果不同的方法适用于不同的问题,为什么统计学的创始人没有看到这一点?或者,辩论是否由频率论者赢得,真正的主观贝叶斯论者转向决策理论?

4个回答

我实际上有点不同意这个前提。每个人都是贝叶斯主义者,如果他们确实有一个先验概率分布。当他们不这样做时,麻烦就来了,我认为在这个话题上仍然存在相当大的分歧。

尽管如此,我确实同意越来越多的人不太愿意打圣战,而是继续做在任何特定情况下似乎合适的事情。

我想说的是,随着行业的发展,双方都意识到对方的做法是有可取之处的。贝叶斯主义者意识到,如果反复使用贝叶斯程序(例如,这个 95% 的可信区间 (CI) 是否实际上在大约 95% 的时间里包含真实参数?),评估贝叶斯程序的效果需要频率论者的观点。没有这个,就没有将“95%”校准到任何真实世界的数字。鲁棒性?通过迭代拟合等建立模型?出现在常客世界中的想法,并在 1980 年代后期左右开始被贝叶斯主义者采用。频率论者意识到正则化很好,并且现在非常普遍地使用它 - 贝叶斯先验可以很容易地解释为正则化。通过具有惩罚函数的三次样条进行非参数建模?你的惩罚是我的优先!现在我们都可以相处了。

我认为,另一个主要影响是高质量软件可用性的惊人改进,它可以让您快速进行分析。这分为两部分 - 算法,例如 Gibbs 采样和 Metropolis-Hastings,以及软件本身,R、SAS,......如果我必须用 C 编写所有代码(我只是简单地没有时间尝试其他任何东西),但事实上,只要我的模型看起来我可以在没有太多挤压的情况下将其放入该框架时,我都会在 R 的 mgcv 包中使用 gam,而且我一个更好的统计学家。熟悉对手的方法,并意识到在某些情况下使用它们可以节省多少精力/可以提供更好的质量,即使它们可能无法 100% 适合您思考问题的默认框架,

(最初的答案是 2012 年的)。

这是一个很难回答的问题。真正做到这两点的人仍然非常有限。硬核贝叶斯主义者鄙视主流统计数据的用户,因为他们使用p-values,一个荒谬的、内部不一致的贝叶斯统计数据;而主流统计学家只是不太了解贝叶斯方法,无法对其发表评论。有鉴于此,您会在贝叶斯文献(几乎包括纯生物学或纯心理学期刊)中看到很多对零假设显着性检验的批评,主流人士几乎没有回应。

统计界对于“谁赢了这场辩论”存在着相互矛盾的表现。一方面,统计部门的平均构成是,在大多数地方,你会发现 10-15 个主流人对 1-2 个贝叶斯主义者,尽管有些部门是纯贝叶斯主义者,根本没有主流人,除了可能是咨询职位负责为生物学家制作实验设计。哈佛、杜克大学、卡内基梅隆大学、不列颠哥伦比亚省、蒙特利尔在北美浮现;我对欧洲的场景不太熟悉。另一方面,您会看到在 JASA 或 JRSS 等期刊中,可能有 25-30% 的论文是贝叶斯的。在某种程度上,贝叶斯的复兴可能类似于 1950 年代 ANOVA 论文的爆发:那时,人们认为几乎任何统计问题都可以归结为 ANOVA 问题;现在,人们认为几乎任何事情都可以通过正确的 MCMC 解决。

我的感觉是,应用领域不必费心去搞清楚哲学细节,而只选择更容易使用的东西。贝叶斯方法太复杂了:除了统计,你还需要学习计算的艺术(设置采样器、阻塞、收敛诊断,等等)并准备好捍卫你的先验(如果你使用客观先验,或者如果该领域几乎确定光速为 3e8 m/s,或者甚至先验的选择是否会影响您的后验是否正确,您是否应该使用信息先验)。因此,在大多数医学或心理学或经济学应用中,您会在实质性研究人员撰写的论文中看到主流方法,

我认为,贝叶斯框架仍然不足的一个领域是模型诊断——这对从业者来说是一个重要领域。在贝叶斯世界中,要诊断模型,您需要构建一个更复杂的模型,并选择贝叶斯因子或 BIC 更适合的模型。因此,如果您不喜欢线性回归的正态性假设,您可以使用学生误差建立回归,并让数据生成自由度的估计值,或者您可以变得非常花哨并为您的 Dirichlet 过程错误术语并在不同模型之间进行一些 MH 跳转。主流方法是建立学生化残差的 QQ 图并去除异常值,这再次简单得多。

我在这本书中编辑了一个章节——见http://onlinelibrary.wiley.com/doi/10.1002/9780470583333.ch5/summary这是一篇非常典型的论文,在这场辩论中提供了大约 80 条参考资料,都支持贝叶斯的观点。(我要求作者在修订版中对其进行扩展,其中说了很多:))。杜克大学的吉姆·伯杰(Jim Berger )是主要的贝叶斯理论家之一,他进行了许多讲座,并就该主题撰写了许多非常有思想的文章。

PS(2020 年 6 月编辑):近年来,Stan ( https://mc-stan.org/ ) 对计算的“blah-blah-blah”部分进行了显着简化。NUTS 采样器需要调整的参数更少,同时提供额外的诊断,使收敛失败更加明显。通过后验预测检查和基于仿真的校准,模型诊断也得到了改进。

仍然拥有两者有一个很好的理由,那就是一个好的工匠会想要为手头的任务选择最好的工具,而贝叶斯和常客方法都有应用,它们是完成这项工作的最佳工具。

然而,经常使用错误的工具来完成这项工作,因为常客统计更适合“统计食谱”方法,这使得它们比贝叶斯对应物更容易应用于科学和工程,即使贝叶斯方法提供了更直接的答案提出的问题(这通常是我们可以从我们实际拥有的特定数据样本中推断出来的)。我不太赞成这一点,因为“食谱”方法会导致在没有充分了解您实际在做什么的情况下使用统计数据,这就是为什么像 p 值谬误这样的事情一次又一次地出现。

然而,随着时间的推移,贝叶斯方法的软件工具将得到改进,并且它们将被更频繁地使用,正如 jbowman 所说的那样。

我的倾向是贝叶斯主义者(这对我来说似乎比常客方法更有意义),但是我最终在我的论文中使用常客统计,部分原因是如果我使用贝叶斯统计,我会遇到审稿人的麻烦,因为他们将是“非标准的”。

最后(有点开玩笑;o),引用 Max Plank “一个新的科学真理不会通过说服它的对手并让他们看到光明而胜利,而是因为它的对手最终会死去,而新一代会成长为熟悉用它。”

我不认为频率论者和贝叶斯论者对同样的问题给出不同的答案。我认为他们准备回答不同的问题因此,我认为多谈一方获胜,甚至谈妥协是没有意义的。

考虑我们可能想问的所有问题。许多只是不可能的问题(“什么是真正的价值?θ?”)。考虑这些问题的子集会更有用BF 的子集,即不依赖任何先验的问题集。称这第二个子集为 F。F 是 BF 的子集。定义 B = BF \ B。

但是,我们无法选择回答哪些问题。为了对世界做出有用的推论,我们有时必须回答 B 中的问题,这意味着使用先验。

理想情况下,给定一个估算器,您将进行彻底的分析。您可能会使用先验,但如果您可以证明您的估算器不依赖于任何先验,那也会很酷。这并不意味着你可以放弃先验,也许真正有趣的问题需要先验。

每个人都同意如何回答 F 中的问题。担心的是真正“有趣”的问题是在 F 中还是在 B 中?

一个例子:一个病人走进医生那里,他要么是健康的(H),要么是生病的(S)。我们运行了一个测试,它将返回正(+)或负(-)。该测试从不给出假阴性 - 即P(|S)=0. 但它有时会给出误报——P(+|H)=0.05

我们有一张卡片,测试机会在卡片的一侧写上+或-。想象一下,如果你愿意,我们有一个以某种方式知道真相的神谕,并且这个神谕在将卡片放入信封之前在卡片的另一面写下真实状态 H 或 S。

作为受过统计学训练的医生,在打开卡片之前,我们能对信封里的卡片说些什么呢?可以做出以下陈述(这些在上面的 F 中):

  • 如果 S 在卡的一侧,那么另一侧将是 +。P(+|S)=1
  • 如果是H,那么对方将是+,概率为5%,-概率为95%。P(|H)=0.95
  • (总结最后两点)双方匹配的概率至少为95%。P((,S)(+,H))0.95

我们不知道什么P((,S))或者P((+,H))是。如果没有某种先验,我们无法真正回答这个问题P(S). 但是我们可以对这两个概率的总和做出陈述。

这是我们所能做到的。在打开信封之前,我们可以对测试的准确性做出非常积极的陈述。测试结果与事实相符的概率(至少)为 95%。

但是当我们真正打开卡片时会发生什么?鉴于测试结果是阳性(或阴性),我们能说他们是健康还是生病?

如果测试是阳性 (+),我们无话可说。也许他们是健康的,也许不是。根据目前疾病的流行情况(P(S)) 可能是大多数检测呈阳性的患者都是健康的,或者可能是大多数人生病的情况。我们不能为此设置任何界限,除非首先允许自己设置一些界限P(S).

在这个简单的例子中,很明显每个测试结果为阴性的人都是健康的。没有假阴性,因此每个统计学家都会很高兴地把那个病人送回家。因此,除非测试结果为阳性,否则为统计学家的建议付费是没有意义的

上面的三个要点是正确的,而且非常简单。但它们也没有用!在这个公认的人为模型中,真正有趣的问题是:

P(S|+)

这不能不回答P(S)(即先验,或至少在先验的一些界限)

我不否认这可能是一个过于简单化的模型,但它确实表明,如果我们想对这些患者的健康做出有用的陈述,我们必须从对他们健康的一些先验信念开始。