Ziliak (2011) 反对使用 p 值并提到了一些替代方案;这些是什么?

机器算法验证 r 假设检验 统计学意义 贝叶斯 p 值
2022-01-24 12:05:03

在最近一篇讨论依赖 p 值进行统计推断的缺点的文章中,称为“Matrixx v. Siracusano and Student v. Fisher Statistical显着性试验”(DOI:10.1111/j.1740-9713.2011.00511.x), Stephen T. Ziliak 反对使用 p 值。在最后的段落中,他说:

数据是我们已经知道的一件事,而且是肯定的。我们真正想知道的是完全不同的东西:假设我们拥有的数据为真(或至少实际上有用)的概率。我们想知道这两种药物不同的可能性,以及在现有证据下的差异程度。显着性检验——基于转置条件的谬误,费舍尔陷入的陷阱——没有也不能告诉我们这个概率。幂函数、预期损失函数以及源自 Student 和 Jeffreys 的许多其他决策理论和贝叶斯方法,现在可以在网上广泛使用且免费。

什么是幂函数、预期损失函数和“其他决策理论和贝叶斯方法”?这些方法是否被广泛使用?它们在 R 中可用吗?这些新的建议方法是如何实施的?例如,我将如何使用这些方法在数据集中测试我的假设,否则我将使用传统的两样本 t 检验和 p 值?

4个回答

这听起来像是一个困惑的人的另一篇刺耳的论文。费舍尔没有落入任何这样的陷阱,尽管许多统计学专业的学生这样做了。

假设检验是一个决策理论问题。通常,您最终会得到一个在两个决策(假设为真或假设为假)之间具有给定阈值的测试。如果您有一个对应于单个点的假设,例如θ=0,然后您可以计算数据为真时产生的概率。但是,如果它不是一个点,你会怎么做?你得到一个函数θ. 假设θ0是这样一个假设,如果它是真的,你会得到这样一个函数来产生你观察到的数据的概率。这个函数就是幂函数。非常经典。费舍尔知道这一切。

预期损失是决策理论基本机制的一部分。你有各种各样的自然状态,以及由此产生的各种可能的数据,以及你可以做出的一些可能的决策,你想找到一个从数据到决策的好函数。你怎么定义好?给定您获得的数据背后的特定自然状态,以及该程序做出的决定,您的预期损失是多少?这在商业问题中最简单的理解(如果我根据过去三个季度观察到的销售额来做这个,那么预期的货币损失是多少?)。

贝叶斯程序是决策理论程序的一个子集。预期损失不足以在除了微不足道的情况下指定唯一的最佳程序。如果一个程序在 A 和 B 状态下都比另一个程序好,显然你会更喜欢它,但是如果一个程序在 A 状态下更好,一个在 B 状态下更好,你会选择哪个?这就是贝叶斯过程、极小值和无偏性等辅助思想进入的地方。

t 检验实际上是决策理论问题的完美解决方案。问题是你如何选择你计算。给定的值对应于给定值α,第一类错误的概率,以及给定的幂集β,取决于您估计的基础参数的大小。使用点零假设是近似值吗?是的。在实践中通常是一个问题吗?不,就像在结构工程中使用伯努利的梁偏转近似理论通常就可以了。正在拥有p-值没用?不会。查看您数据的其他人可能想要使用不同的α比你和p-value 适应该用途。

考虑到费舍尔负责学生作品的广泛传播,我对他为什么将 Student 和 Jeffreys 命名在一起也有点困惑。

基本上,盲目使用 p 值是一个坏主意,它们是一个相当微妙的概念,但这并不意味着它们毫无用处。我们是否应该反对数学背景较差的研究人员滥用它们?当然,但让我们记住在费舍尔试图提炼一些东西供现场人员使用之前它的样子。

我建议关注诸如置信区间和模型检查之类的事情。Andrew Gelman 在这方面做得很好。我推荐他的教科书,但也看看他放在网上的东西,例如http://andrewgelman.com/2011/06/the_holes_in_my/

ez包在您使用该函数进行混合效应建模时提供似然ezMixed()似然比旨在通过比较两个模型的可能性(给定观察数据)来量化现象的证据:将现象的影响限制为零的“受限”模型和允许非零影响的“无限制”模型现象。在校正了模型差异复杂度的观察到的可能性(通过 Akaike 的信息准则,它渐近等效于交叉验证)后,该比率量化了该现象的证据。

所有这些技术都可以在 R 中使用,就像所有代数都可以在您的铅笔中使用一样。甚至 p 值也可以通过 R 中的许多不同函数获得,决定使用哪个函数来获得 p 值或贝叶斯后验比指向单个函数或包的指针更复杂。

一旦您了解了这些技术并确定了您真正想要答案的问题,那么您就可以看到(或者我们可以提供更多帮助)如何使用 R(或其他工具)来做到这一点。只是说你想最小化你的损失函数,或者得到一个后验分布,就像当被问到你晚餐想吃什么时回答“食物”一样有用。