就显着性测试(或与显着性测试做本质上相同的事情)而言,我长期以来一直认为,在大多数情况下,最好的方法可能是估计一个标准化的效应大小,大约有 95% 的置信区间规模效应。那里没有什么真正的新东西——从数学上讲,你可以在它们之间来回切换——如果“nil”null 的 p 值 <.05,那么 0 将位于 95% CI 之外,反之亦然。在我看来,这样做的好处是心理上的; 也就是说,当只报告 p 值时,它会生成存在但人们看不到的显着信息。例如,很容易看出效果非常“显着”,但小得离谱;或“不显着”,但这只是因为误差线很大,而估计的效果或多或少与您的预期相符。这些可以与原始值及其 CI 配对。
现在,在许多领域,原始值本质上是有意义的,我认识到这提出了一个问题,即考虑到我们已经有了平均值和斜率等值,计算效应大小度量是否仍然值得。一个例子可能是发育迟缓;我们知道对于一个 20 岁的白人男性来说比其他人短 6 +/- 2 英寸(即 15 +/- 5 厘米)意味着什么,那么为什么要提到呢?我倾向于认为报告两者仍然有价值,并且可以编写函数来计算它们,这样几乎不需要额外的工作,但我承认意见会有所不同。无论如何,我认为带有置信区间的点估计取代了 p 值作为我回答的第一部分。 d=−1.6±.5
另一方面,我认为一个更大的问题是“重要性测试是不是我们真正想要的?” 我认为真正的问题是,对于大多数分析数据的人(即从业者而非统计学家)来说,显着性检验可以成为数据分析的全部。在我看来,最重要的是要有一种原则性的方式来思考我们的数据发生了什么,而零假设显着性检验充其量只是其中的一小部分。让我举一个想象的例子(我承认这是一个漫画,但不幸的是,我担心它有点似是而非):
Bob 进行一项研究,收集有关某事或其他的数据。他预计数据将呈正态分布,紧密围绕某个值聚集,并打算进行单样本 t 检验,以查看他的数据是否与某个预先指定的值“显着不同”。在收集了他的样本后,他检查了他的数据是否正态分布,并发现它们不是。相反,它们在中心没有明显的肿块,但在给定的时间间隔内相对较高,然后以长长的左尾拖尾。Bob 担心他应该做些什么来确保他的测试有效。他最终做了一些事情(例如,转换、非参数检验等),然后报告检验统计量和 p 值。
我希望这不会让人讨厌。我并不是要嘲笑任何人,但我认为这样的事情确实偶尔会发生。如果发生这种情况,我们都可以同意这是糟糕的数据分析。但是,问题不在于检验统计量或 p 值错误;我们可以假设在这方面数据处理得当. 我认为问题在于鲍勃从事克利夫兰所说的“死记硬背的数据分析”。他似乎认为唯一的目的是获得正确的 p 值,并且在追求该目标之外很少考虑他的数据。他甚至可以切换到我上面的建议,并报告了一个具有 95% 置信区间的标准化效应大小,并且它不会改变我认为更大的问题(这就是我所说的“本质上相同的事情” “通过不同的方式)。在这种特定情况下,数据看起来不像他预期的那样(即不正常)这一事实是真实的信息,这很有趣,而且很可能很重要,但这些信息基本上只是被丢弃了。Bob 没有意识到这一点,因为它专注于显着性检验。在我看来,这是显着性检验的真正问题。
让我谈谈已经提到的其他一些观点,我想非常清楚,我不是在批评任何人。
- 经常提到很多人并不真正理解 p 值(例如,认为它们是 null 为真的概率)等等。有时有人认为,如果只有人们使用贝叶斯方法,这些问题就会离开。我相信人们可以以一种既不好奇又机械的方式进行贝叶斯数据分析。但是,我认为,如果没有人认为获得 p 值是目标,那么对 p 值含义的误解就不会那么有害了。
- “大数据”的存在一般与这个问题无关。大数据只表明围绕“重要性”组织数据分析并不是一种有用的方法。
- 我不认为问题在于正在测试的假设。如果人们只想查看估计值是否在区间之外,而不是是否等于点值,则可能会出现许多相同的问题。(再次声明,我知道你不是“鲍勃”。)
- 作为记录,我想提一下我自己在第一段中的建议并没有解决这个问题,正如我试图指出的那样。
对我来说,这是核心问题:我们真正想要的是一种有原则的方式来思考所发生的事情。在任何特定情况下,这意味着什么都不会被切割和干燥。如何在方法课上将其传授给学生既不清晰也不容易。显着性测试背后有很多惯性和传统。在统计课上,很清楚需要教什么以及如何教。对于学生和从业者来说,可以开发一个概念图来理解材料,以及一个清单/流程图(我见过一些!)来进行分析。重要性测试可以自然地演变成死记硬背的数据分析,而不会有人愚蠢、懒惰或坏。 这就是问题所在。