作为一个局外人,对于应该如何进行统计推断,似乎有两种相互竞争的观点。
这两种不同的方法是否都被工作的统计学家认为是有效的?
选择一个被认为更多的是一个哲学问题吗?或者当前的情况是否被认为是有问题的,并且正在尝试以某种方式统一不同的方法?
作为一个局外人,对于应该如何进行统计推断,似乎有两种相互竞争的观点。
这两种不同的方法是否都被工作的统计学家认为是有效的?
选择一个被认为更多的是一个哲学问题吗?或者当前的情况是否被认为是有问题的,并且正在尝试以某种方式统一不同的方法?
我认为这并不重要,只要对结果的解释与分析在同一框架内进行即可。常客统计的主要问题是,有一种自然倾向,将常客显着性检验的 p 值视为原假设为真的贝叶斯 a-后验概率(因此 1-p 是备择假设为真),或将常客置信区间视为贝叶斯可信区间(因此假设真实值在我们拥有的特定数据样本的 95% 置信区间内的概率为 95%)。这些类型的解释是自然的,因为它将是我们自然想问的问题的直接答案。
只要答案的形式是可以接受的,并且我们可以就所做的假设达成一致,那么就没有理由偏爱一个而不是另一个 - 这是课程中的马匹问题。
我仍然是贝叶斯主义者;o)
除了 Shane 所说,我认为连续体包括:
是的,我在所有这些方面都认识在职的统计学家和分析师。大部分时间我都住在#3,努力花更多的时间在#2。
我认为贝叶斯统计在两种不同的情况下发挥作用。
一方面,一些研究人员/统计学家肯定相信“贝叶斯精神”,并承认经典频率论假设框架的局限性,决定专注于贝叶斯思想。强调小效应量或临界统计显着性的实验心理学研究现在越来越依赖贝叶斯框架。在这方面,我想引用 Bruno Lecoutre (1-4) 的一些广泛工作,他对开发基准风险和贝叶斯 (M)ANOVA 的使用做出了贡献。我认为我们可以很容易地根据应用于感兴趣参数的概率(即取决于先验分布)来解释置信区间这一事实是统计思维的根本转变。国际贝叶斯分析学会使用贝叶斯模型。Frank Harrell 还提供了适用于RCT的临床医生贝叶斯方法的有趣概述。
另一方面,贝叶斯方法已被证明在诊断医学中是成功的 (5),并且经常被用作传统统计方法失败的最终替代方案(如果适用的话)。我正在考虑一篇心理测量学论文 (6),其中作者有兴趣从非常有限的数据集(12 位医生 x 15 幅射线照相)中评估放射科医生之间关于髋部骨折严重程度的一致性,并使用项目响应模型来处理多分项。
最后,最近发表在《医学统计》上的一篇 45 页的论文对贝叶斯模型在生物统计学中的“渗透性”进行了有趣的概述:
阿什比,D(2006 年)。医学中的贝叶斯统计:25 年回顾。 医学统计,25(21),3589-631。
参考
我想在应用领域中,这种差异并没有受到太多关注,因为研究人员/从业者在应用工作中往往是务实的。您可以根据上下文选择适用的工具。
然而,在那些关心这两种方法背后的哲学问题的人中,争论是活跃的。例如,请参阅Andrew Gelman的以下博客文章: