效应量作为显着性检验的假设

机器算法验证 假设检验 p 值 大数据
2022-02-14 15:16:24

今天,在 Cross Validated Journal Club(你为什么不在那里?),@mbq 问道:

你认为我们(现代数据科学家)知道重要性意味着什么吗?它与我们对结果的信心有何关系?

@Michelle 像某些人(包括我)通常那样回答:

随着我继续我的职业生涯,我发现重要性概念(基于 p 值)越来越没有帮助。例如,我可以使用非常大的数据集,所以一切都具有统计意义(p<.01

这可能是一个愚蠢的问题,但问题不是正在测试的假设吗?如果您测试零假设“A 等于 B”,那么您知道答案是“否”。更大的数据集只会让你更接近这个不可避免的真实结论。我相信是戴明曾经举过一个例子,假设“羔羊右侧的毛数等于其左侧的毛数”。嗯,当然不是。

一个更好的假设是“A 与 B 的差异不超过这么多”。或者,在羔羊的例子中,“羔羊两侧的毛发数量差异不超过 X%”。

这有意义吗?

4个回答

就显着性测试(或与显着性测试做本质上相同的事情)而言,我长期以来一直认为,在大多数情况下,最好的方法可能是估计一个标准化的效应大小,大约有 95% 的置信区间规模效应。那里没有什么真正的新东西——从数学上讲,你可以在它们之间来回切换——如果“nil”null 的 p 值 <.05,那么 0 将位于 95% CI 之外,反之亦然。在我看来,这样做的好处是心理上的; 也就是说,当只报告 p 值时,它会生成存在但人们看不到的显着信息。例如,很容易看出效果非常“显着”,但小得离谱;或“不显着”,但这只是因为误差线很大,而估计的效果或多或少与您的预期相符。这些可以与原始值及其 CI 配对。

现在,在许多领域,原始值本质上是有意义的,我认识到这提出了一个问题,即考虑到我们已经有了平均值和斜率等值,计算效应大小度量是否仍然值得。一个例子可能是发育迟缓;我们知道对于一个 20 岁的白人男性来说比其他人短 6 +/- 2 英寸(即 15 +/- 5 厘米)意味着什么,那么为什么要提到呢?我倾向于认为报告两者仍然有价值,并且可以编写函数来计算它们,这样几乎不需要额外的工作,但我承认意见会有所不同。无论如何,我认为带有置信区间的点估计取代了 p 值作为我回答的第一部分。 d=1.6±.5

另一方面,我认为一个更大的问题是“重要性测试是不是我们真正想要的?” 我认为真正的问题是,对于大多数分析数据的人(即从业者而非统计学家)来说,显着性检验可以成为数据分析的全部。在我看来,最重要的是要有一种原则性的方式来思考我们的数据发生了什么,而零假设显着性检验充其量只是其中的一小部分。让我举一个想象的例子(我承认这是一个漫画,但不幸的是,我担心它有点似是而非):

Bob 进行一项研究,收集有关某事或其他的数据。他预计数据将呈正态分布,紧密围绕某个值聚集,并打算进行单样本 t 检验,以查看他的数据是否与某个预先指定的值“显着不同”。在收集了他的样本后,他检查了他的数据是否正态分布,并发现它们不是。相反,它们在中心没有明显的肿块,但在给定的时间间隔内相对较高,然后以长长的左尾拖尾。Bob 担心他应该做些什么来确保他的测试有效。他最终做了一些事情(例如,转换、非参数检验等),然后报告检验统计量和 p 值。

我希望这不会让人讨厌。我并不是要嘲笑任何人,但我认为这样的事情确实偶尔会发生。如果发生这种情况,我们都可以同意这是糟糕的数据分析。但是,问题不在于检验统计量或 p 值错误;我们可以假设在这方面数据处理得当. 我认为问题在于鲍勃从事克利夫兰所说的“死记硬背的数据分析”。他似乎认为唯一的目的是获得正确的 p 值,并且在追求该目标之外很少考虑他的数据。他甚至可以切换到我上面的建议,并报告了一个具有 95% 置信区间的标准化效应大小,并且它不会改变我认为更大的问题(这就是我所说的“本质上相同的事情” “通过不同的方式)。在这种特定情况下,数据看起来不像他预期的那样(即不正常)这一事实是真实的信息,这很有趣,而且很可能很重要,但这些信息基本上只是被丢弃了。Bob 没有意识到这一点,因为它专注于显着性检验。在我看来,这是显着性检验的真正问题。

让我谈谈已经提到的其他一些观点,我想非常清楚,我不是在批评任何人。

  1. 经常提到很多人并不真正理解 p 值(例如,认为它们是 null 为真的概率)等等。有时有人认为,如果只有人们使用贝叶斯方法,这些问题就会离开。我相信人们可以以一种既不好奇又机械的方式进行贝叶斯数据分析。但是,我认为,如果没有人认为获得 p 值是目标,那么对 p 值含义的误解就不会那么有害了。
  2. “大数据”的存在一般与这个问题无关。大数据只表明围绕“重要性”组织数据分析并不是一种有用的方法。
  3. 我不认为问题在于正在测试的假设。如果人们只想查看估计值是否在区间之外,而不是是否等于点值,则可能会出现许多相同的问题。(再次声明,我知道你不是“鲍勃”。)
  4. 作为记录,我想提一下我自己在第一段中的建议并没有解决这个问题,正如我试图指出的那样。

对我来说,这是核心问题:我们真正想要的是一种有原则的方式来思考所发生的事情在任何特定情况下,这意味着什么都不会被切割和干燥。如何在方法课上将其传授给学生既不清晰也不容易。显着性测试背后有很多惯性和传统。在统计课上,很清楚需要教什么以及如何教。对于学生和从业者来说,可以开发一个概念图来理解材料,以及一个清单/流程图(我见过一些!)来进行分析。重要性测试可以自然地演变成死记硬背的数据分析,而不会有人愚蠢、懒惰或坏。 就是问题所在。

为什么我们在统计中坚持任何形式的假设检验?

在精彩的《统计作为原则论证》一书中,罗伯特·阿贝尔森认为,统计分析是关于所讨论主题的原则论证的一部分。他说,与其被评估为被拒绝或不被拒绝(甚至被接受!?!)的假设,我们应该根据他所谓的 MAGIC 标准来评估它们:

幅度 - 它有多大?衔接 - 它是否充满了例外?清楚吗?一般性 - 它的适用范围如何?趣味性——我们关心结果吗?可信度——我们能相信吗?

我在我的博客上对这本书的评论

您的最后一个问题不仅有意义:如今,明智的工业统计学家不会测试显着差异,而是测试显着等价性,即测试形式的零假设其中由用户设置,并且确实与“效果大小”的概念有关。最常见的等价测试是所谓的TOST然而,TOST 策略旨在证明两个均值显着 -close,例如是某些测量方法的平均值,而H0:{|μ1μ2|>ϵ}ϵμ1μ2ϵμ1μ2对于另一种测量方法,在许多情况下,评估观测值之间的等价性而不是均值更为明智。为此,我们可以对等量进行假设检验,并且这种假设检验与容差区间有关。Pr(|X1X2|>ϵ)

传统的假设检验告诉您是否有统计上显着的证据表明存在效应,而我们经常想知道的是存在实际显着效应的证据。

当然可以形成具有最小效应大小的贝叶斯“假设检验”(IIRC 在 David MacKay 的“信息理论、推理和学习算法”一书中有一个例子,我有时间会查一下.

正态性检验是另一个很好的例子,我们通常知道数据并不是真正的正态分布,我们只是在测试是否有证据表明这不是一个合理的近似值。或者测试硬币的偏差,我们知道它不太可能完全有偏差,因为它是不对称的。