贝叶斯统计中是否需要功率分析?

机器算法验证 贝叶斯 统计能力
2022-02-01 09:49:02

我最近一直在研究贝叶斯对经典统计的看法。在阅读了贝叶斯因子之后,我一直想知道在这种统计视图中功率分析是否是必要的。我想知道这一点的主要原因是贝叶斯因子实际上只是一个似然比。一旦它像 25:1 似乎我可以称之为一个晚上。

我离得很远吗?我可以做任何其他阅读以了解更多信息吗?目前正在阅读本书: WM Bolstad的贝叶斯统计简介(Wiley-Interscience;第 2 版,2007 年)。

4个回答

您可以使用贝叶斯统计执行假设检验。例如,如果超过 95% 的后验密度大于零,您可以断定效果大于零。或者,您可以采用基于贝叶斯因子的某种形式的二元决策。

一旦建立了这样的决策系统,就可以在假设给定的数据生成过程和样本量的情况下评估统计能力。您可以使用模拟在给定的上下文中轻松评估这一点。

也就是说,贝叶斯方法通常更关注可信区间而不是点估计,以及可信度而不是二元决策。使用这种更连续的推理方法,您可以评估对设计推理的其他影响。特别是,您可能希望评估给定数据生成过程和样本量的可信区间的预期大小。

功效是关于未来研究中 p < 0.05 (alpha) 的长期概率。在贝叶斯中,来自研究 A 的证据会被输入到研究 B 的先验中,等等。因此,频率统计中定义的权力实际上并不存在。

这个问题导致了很多误解,因为人们使用贝叶斯统计来询问常客问题。例如,人们想要确定变体 B 是否优于变体 A。他们可以通过确定这两个后验分布 (BA) 之间差异的 95% 最高密度区间是否大于 0 或实际意义的区域大约为 0。但是,如果您使用贝叶斯统计来回答常客问题,您仍然会犯常客错误:类型 I(误报;opps - B 实际上并没有更好)和类型 II(错过;未能意识到) B确实更好)。

功效分析的重点是减少 II 类错误(例如,如果存在效果,至少有 80% 的机会发现效果)。当使用贝叶斯统计来询问上述常见问题时,还应该使用功效分析。

如果您不使用功效分析,然后在收集数据时反复查看数据,然后仅在发现显着差异时停止,那么您将犯下比您预期更多的 I 型(误报)错误- 就像您一直在使用常客统计一样。

查看:

https://doingbayesiandataanalysis.blogspot.com/2013/11/optional-stopping-in-data-collection-p.html

http://varianceexplained.org/r/bayesian-ab-testing/

值得注意的是——一些贝叶斯方法可以减少但不能消除犯第一类错误的可能性(例如,适当的信息先验)。

例如,在临床试验中对功效分析的需求是能够计算/估计招募多少参与者以有机会发现治疗效果(如果存在)(给定的最小规模)。招募无限数量的患者是不可行的,首先是因为时间限制,其次是因为成本限制。

所以,想象一下我们正在对所说的临床试验采用贝叶斯方法。尽管在理论上是可能的,但对先验的敏感性无论如何都是可取的,因为不幸的是,有不止一个平坦的先验可用(我现在在想这很奇怪,因为实际上应该只有一种表达完全不确定性的方式)。

因此,想象一下,我们进一步进行敏感性分析(模型而不仅仅是先验也将在这里受到审查)。这涉及从“真相”的合理模型进行模拟。在古典/频率论统计中,这里有四个候选“真相”:H0,mu=0;H1, mu!=0 观察到有错误(如在我们的现实世界中)或没有错误(如在不可观察的现实世界中)。在贝叶斯统计中,这里有两个“真相”候选者: mu 是一个随机变量(就像在不可观察的现实世界中一样);mu 是一个随机变量(就像在我们可观察的现实世界中,从一个不确定的个人的角度来看)。

所以实际上这取决于你试图说服谁 A)通过试验和 B)通过敏感性分析。如果不是同一个人,那就太奇怪了。

实际上有问题的是关于什么是真理以及什么是有形证据的共识。共同的基础是,签名概率分布在我们真实的可观察世界中是可观察的,它们在某种程度上显然具有一些潜在的数学真理,而这些真理恰好是偶然的,或者是设计使然。我会停在那里,因为这不是艺术页面,而是科学页面,或者这是我的理解。