我认为重要的是要记住不同的方法对不同的事物有好处,而统计学世界中的重要性测试并不是全部。
1 和 3) EB 可能不是一个有效的假设检验程序,但它也不是故意的。
有效性可能是很多东西,但你在谈论严格的实验设计,所以我们可能正在讨论一个假设检验,它应该可以帮助你以一定的长期频率做出正确的决定。这是一个严格二分的是/否类型的制度,对于必须做出是/否类型决定的人来说最有用。确实有很多非常聪明的人在这方面的经典著作。假设您的所有假设都成立,这些方法在极限中具有很好的理论有效性,&c。但是,EB 肯定不是为此而生的。如果您想要经典 NHST 方法的机制,请坚持使用经典 NHST 方法。
2) EB 最适用于估计许多相似的可变数量的问题。
埃夫隆自己打开他的书大规模推理列出了统计历史的三个不同时代,指出我们目前正处于
[那个] 科学大规模生产的时代,在这个时代,以微阵列为代表的新技术允许一个科学家团队生产出 Quetelet 羡慕的大小的数据集。但是现在数据的洪流伴随着大量的问题,也许是统计学家负责一起回答的数千个估计或假设检验;完全不是古典大师们所想的。
他继续说:
就其本质而言,经验贝叶斯论证在分析重复结构问题时结合了常客和贝叶斯元素。重复结构正是科学大规模生产所擅长的,例如,通过微阵列同时比较患病和健康受试者的数千个基因的表达水平。
EB 最近最成功的应用可能是在 Bioconductor 上limma
可用。这是一个 R 包,其中包含用于评估两个研究组之间数万个基因的差异表达(即微阵列)的方法。Smyth 展示了他们的 EB 方法产生的 t 统计量比计算常规的基因 t 统计量具有更多的自由度。此处使用 EB“相当于将估计的样本方差缩小到合并估计,从而在数组数量较少时产生更稳定的推理”,这通常是这种情况。
正如 Efron 在上面指出的那样,这与开发经典 NHST 的目的不同,而且该设置通常更具探索性而不是确认性。
4)一般你可以把EB看成一种收缩方法,它可以在收缩有用的任何地方都有用
上面的limma
例子提到了收缩。Charles Stein 给了我们一个惊人的结果,即在估计三个或更多事物的均值时,有一个比使用观察到的均值更好的估计器。James-Stein 估计量的形式为其中 c常数。该估计器将观察到的均值缩小到零,并且在统一较低风险的强烈意义上比使用X1,...,Xkθ^JSi=(1−c/S2)Xi,S2=∑kj=1Xj,cXi
Efron 和 Morris 显示了向合并均值这就是 EB 估计的趋势。下面是我使用 EB 方法在不同城市降低犯罪率的示例。如您所见,更极端的估计值向平均值缩小了相当远的距离。较小的城市,我们可以预期会有更多的变化,但收缩幅度更大。黑点代表一个大城市,基本没有收缩。我有一些模拟表明,这些估计确实比使用观察到的 MLE 犯罪率具有更低的风险。X¯,
要估计的数量越相似,收缩就越有可能有用。您所指的那本书使用棒球的命中率。Morris (1983) 指出了一些其他应用:
- 收益分享---人口普查局。估计几个地区的人均人口普查收入。
- 质量保证---贝尔实验室。估计不同时间段的失败次数。
- 保险费率制定。估计被保险人群体或不同地区的每次暴露风险。
- 法学院招生。估计不同学校的 LSAT 分数相对于 GPA 的权重。
- 火灾报警器---纽约。估计不同报警箱位置的误报率。
这些都是平行估计问题,据我所知,它们更多的是关于对某个数量进行良好预测,而不是找出是/否的决定。
一些参考资料
- 埃夫隆,B.(2012 年)。大规模推理:用于估计、测试和预测的经验贝叶斯方法(第 1 卷)。剑桥大学出版社。芝加哥
- Efron, B. 和 Morris, C. (1973)。Stein 的估计规则及其竞争对手——一种经验贝叶斯方法。美国统计协会杂志,68(341),117-130。芝加哥
- James, W. 和 Stein, C.(1961 年,六月)。使用二次损失进行估计。在第四届伯克利数理统计和概率研讨会论文集(第 1 卷,第 1961 期,第 361-379 页)。芝加哥
- 莫里斯,CN (1983)。参数经验贝叶斯推理:理论与应用。美国统计协会杂志,78(381),47-55。
- 史密斯,GK (2004)。用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。遗传学和分子生物学中的统计应用第 3 卷,第 1 期,第 3 条。