为什么要在出版物中报告测试统计数据?

机器算法验证 假设检验 t检验 荟萃分析 报告
2022-03-17 15:14:44

一些风格指南指示作者不仅要报告假设检验的结果,还要报告计算它的检验统计量的值。例如,APA 风格建议 t( DOF)= t statistic, p=p value用于报告 t 检验的结果,如以下示例所示,取自此处¹。

一个样本:“年轻的青少年比一般青少年更早醒来(M = 7:30,SD = .45),t(33) = 2.10, p = 0.31”

依赖/独立样本:“年轻的青少年对电子游戏(M = 7.45,SD = 2.51)的偏好明显高于书籍(M = 4.22,SD = 2.23),t(15) = 4.00,p < .001。”

值显然很有用²,因为它可以告诉您在零假设下结果是否不太可能。描述性统计对于理解数据/主题池的特征以及任何声称的影响的大小非常重要。p

统计量(或测试的类似统计量)似乎更像是一个中间步骤,需要从另一个中获取一个。同样,自由度通常与数据点的数量密切相关,但的实际值似乎更容易解释。tχ2N

包括测试统计数据如何帮助我解释这些结果?它仅仅是约定俗成的,是对荟萃分析的帮助,还是精明的读者可以从这些数字中学到一些东西?

我对“简单”测试的情况特别感兴趣;我可以想象会告诉您一些关于 ANOVA 设计的信息,而这些信息可能从书面描述中不清楚。F(x,y)



  1. 这些例子对我来说实际上并不是很好。例如,受试者内差异的平均值会提供更多信息。

  2. 当然,在 NHST 框架中。假设我们很乐意为这个问题工作。

1个回答

对于这些建议为何或如何产生,我当然不是一个读心者。但是,我至少可以推测和分享一些 APA 的个人经验。

正如您在对@BruceET 的回复中所观察到的,用于报告测试统计数据的 APA 指南确实早于关于滥用p值的主要立场文件。因此,这些建议也早于假设每次测试都会报告效应大小的过渡。在这样的要求之前,感兴趣的读者至少可以从测试统计中计算出一些粗略的效果度量(例如,d = t/sqrt(df))。

但最终,我认为简短的答案是透明度问题。如果有人将他们的结果报告为t (30) = 1.50, p < .001, d = 1.25,那么读者(理想情况下这会被审稿人/编辑发现)可以查看这些值并清楚地看到这是不正确的。同样,如果有人只是报告,“均值显着不同,p< .001”,那么我们可能会遗漏一些重要信息。我认为您的问题在一个研究确切知道他们在做什么并做出明智决策的世界中是公平的;然而,现实是统计软件包可以不要总是警告某人他们要求进行无意义的测试。我认为这对于参数与非参数测试的问题也很重要。说“变量显着相关,p < .05”并不能说明问题我们的相关性,因此可能无法帮助我们理解该结果的潜在含义。

关于自由度,我确实认为其中一部分与计算效果大小的方式有关,但我认为这也是一个透明度问题。仅仅因为一项研究的总样本可能很大,一旦考虑到缺失的观察结果,特定统计检验的n和样本的N可能会有很大的不同。如果作者发现他们的测试在整个样本中不显着,他们可能会开始查看样本的子组或部分,并报告每个结果的自由度有助于防止误解。

简而言之,我认为在一个每个人都对他们的研究非常负责并且每个人都了解他们正在使用的统计数据的完美世界中,没有必要自己报告统计数据。然而,我认为,出于对研究透明度的务实和善意努力,像 APA 这样的参考风格推荐这种做法。