效果大小真的优于 p 值吗?

机器算法验证 假设检验 置信区间 p 值 规模效应
2022-02-26 00:08:55

在应用研究中,很多重点都放在依赖和报告效应大小而不是p 值上(例如下面的进一步引用)。

但是,p 值这样的效应大小不是一个随机变量,因此当重复相同的实验时,它会因样本而异吗?换句话说,我在问什么统计特征(例如,样本之间的效应大小比 p 值的变化更小)使效应大小比 p 值更好地衡量证据?

然而,我应该提到一个重要的事实,它将 p 值与效应大小分开。也就是说,效应大小是要估计的,因为它有一个总体参数,但p 值不需要估计,因为它没有任何总体参数。

对我来说,效应量只是一个指标,在某些研究领域(例如,人类研究)有助于将来自各种研究人员开发的测量工具的经验发现转化为一个通用指标(公平地说,使用这个指标人类研究可以更好地适应量化研究俱乐部)。

也许如果我们将一个简单的比例作为效应大小,以下(在 R 中)是什么显示了效应大小对 p 值的至高无上?(p 值变化,但效应大小不变)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

请注意,大多数效应大小与检验统计量线性相关。因此,使用效应大小进行零假设检验是一个简单的步骤。

例如,前期后期设计产生的 t 统计量可以很容易地转换为相应的 Cohen's d 效应大小。因此,Cohen's d 的分布只是分布的比例位置版本。

报价单:

因为 p 值是混杂指数,理论上 100 项具有不同样本量和 100 种不同效应量的研究可能各自具有相同的单一 p 值,而具有相同单一效应量的 100 项研究各自可能具有 100 个不同的 p 值值.

或者

p 值是一个随机变量,因样本而异。. . . 因此,比较两个不同实验或同一实验中测量的两个变量的测试的 p 值并声明一个比另一个更显着是不合适的?

引文:

汤普森,B.(2006 年)。行为统计的基础:基于洞察力的方法。纽约,纽约:吉尔福德出版社。

好,PI 和 Hardin,JW(2003 年)。统计中的常见错误(以及如何避免它们)。纽约:威利。

4个回答

提供效应大小而不是 P 值的建议是基于错误的二分法并且是愚蠢的。为什么不同时展示两者?

科学结论应基于对现有证据和理论的合理评估。P 值和观察到的效应大小单独或一起是不够的。

您提供的引用的段落都没有帮助。当然 P 值因实验而异,数据中证据的强度因实验而异。P值只是通过统计模型对该证据的数字提取。鉴于 P 值的性质,将一个 P 值与另一个 P 值进行比较很少与分析目的相关,所以这可能是引文作者试图传达的内容。

如果您发现自己想要比较 P 值,那么您可能应该对不同的数据排列进行显着性检验,以便明智地回答感兴趣的问题。请参阅以下问题: p 值的 p 值?如果一组的平均值不为零,而 另一组的平均值不为零,我们可以得出结论,这些组是不同的吗?

所以,你的问题的答案很复杂。我没有发现基于 P 值或效应大小对数据的二分法反应有用,那么效应大小是否优于 P 值?是的,不,有时,也许,这取决于你的目的。

在应用研究的背景下,效应量对于读者解释研究结果的实际意义(而不是统计意义)是必要的。一般来说,p 值对样本大小的敏感程度远高于效应大小。如果一个实验准确地测量了一个效应量(即它足够接近它所估计的总体参数)但产生了一个不显着的 p 值,那么在所有条件相同的情况下,增加样本量将导致相同的效应量,但较低的 p 值。这可以通过功率分析或模拟来证明。

有鉴于此,对于没有实际意义的效应大小,可以实现非常显着的 p 值。相比之下,低功效研究设计可以为具有重要实际意义的效应大小产生不显着的 p 值。

如果没有特定的实际应用,很难讨论统计显着性与效果大小的概念。例如,考虑一个评估新学习方法对学生平均绩点 (GPA) 影响的实验。我认为 0.01 学分的影响大小几乎没有实际意义(即 2.50 与 2.51 相比)。假设治疗组和对照组的样本量为 2,000 名学生,总体标准差为 0.5 学分:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

处理 样本 平均值= 2.51

控制 样本 均值= 2.50

效果大小 = 2.51 - 2.50 = 0.01

p = 0.53

将样本量增加到 20,000 名学生并保持其他一切不变会产生显着的 p 值:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

处理 样本 平均值= 2.51

控制 样本 均值= 2.50

效果大小 = 2.51 - 2.50 = 0.01

p = 0.044

显然,将样本量增加一个数量级并非易事!但是,我认为我们都同意这种研究方法提供的实际改进可以忽略不计。如果我们仅依赖 p 值,那么我们可能会相信 n=20,000 的情况。

我个人主张同时报告 p 值和效应大小。以及 t 或 F 统计量、自由度和模型诊断的奖励积分!

我目前在数据科学领域工作,在此之前我从事教育研究工作。虽然在每个“职业”中,我都与没有正式统计学背景的人合作,并且统计(和实际)重要性的重点主要放在p-value上。我已经学会在我的分析中包括并强调效应大小,因为统计意义和实际意义之间存在差异。

一般来说,与我共事的人关心一件事“我们的程序/功能是否会产生影响,是或否?”。对于这样的问题,您可以做一些简单的事情,例如 t 检验并向他们报告“是的,您的程序/功能会有所作为”。但这种“差异”究竟有多大?

首先,在我开始深入探讨这个话题之前,我想总结一下我们在谈到效果大小时所指的内容

效应量只是量化两组之间差异大小的一种方式。[...] 相对于一些比较,它对于量化特定干预措施的有效性特别有价值。它使我们能够超越简单的“它是否有效?” 对于更复杂的问题,“它在各种环境中的效果如何?” 此外,通过将重点放在干预的最重要方面 - 效果的大小 - 而不是其统计意义(将效果大小和样本大小混为一谈),它促进了一种更科学的知识积累方法。由于这些原因,效应量是报告和解释有效性的重要工具。

这是效果大小,愚蠢:什么是效果大小以及为什么它很重要

接下来,什么是p-value,它为我们提供了什么信息?好吧,用尽可能少的词来说,p 值是观察到的与零分布的差异纯属偶然的概率。因此,当这个p 值小于阈值 (α)。

为什么 P 值不够?

统计显着性是观察到的两组之间的差异是偶然的概率。如果P值大于所选的 alpha 水平(例如,0.05),则假定任何观察到的差异都可以通过抽样变异性来解释。对于足够大的样本,统计检验几乎总是会显示出显着差异,除非没有任何影响,也就是说,当影响大小正好为零时;然而,非常小的差异,即使很重要,通常也毫无意义。因此,仅报告分析的显着 P 值不足以让读者充分理解结果。

并证实@DarrenJames关于大样本量的评论

例如,如果样本量为 10 000,即使组间结果的差异可以忽略不计,也可能会发现显着的 P 值,并且可能无法证明对另一个进行昂贵或耗时的干预是合理的。显着性水平本身并不能预测效应大小。与显着性检验不同,效应大小与样本大小无关。另一方面,统计显着性取决于样本量和效应量。由于这个原因,P 值被认为是混杂的,因为它们依赖于样本量。有时,具有统计学意义的结果仅意味着使用了巨大的样本量。[有一种错误的观点认为这种行为代表了对零假设的偏见。为什么常客假设检验会偏向于拒绝具有足够大样本的原假设?]

使用效应量——或为什么P值不够

报告 P 值和效应大小

现在回答这个问题,效果大小是否优于p我会争辩说,这些都是统计分析中的重要组成部分,不能用这些术语进行比较,应该一起报告。p 值是表示统计显着性(与零分布的差异)的统计量,其中效应大小用文字表示存在多少差异。

例如,假设您的主管 Bob 对统计数据不太友好,他有兴趣查看wt(重量)和mpg(每加仑英里数)之间是否存在显着关系。你从假设开始分析

H0:βmpg=0 vs HA:βmpg0

正在测试α=0.05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

summary输出中我们可以看到我们有一个非常小的 p 值的t 统计量。我们可以轻松地拒绝原假设并报告βmpg0. 然而,你的老板问,嗯,有什么不同?您可以告诉 Bob,“嗯,看起来mpgwt之间存在线性关系。此外,可以总结为,wt每增加一个单位, mpg就会减少 5.3445

因此,您能够得出结果具有统计显着性的结论,并以实际方式传达其重要性。

我希望这对回答您的问题有用。

在我的领域(心理学)中经常讨论相对于 p 值(以及其他统计推断指标)的效应大小的效用,并且由于与您的问题相关的原因,目前的辩论比正常情况“更激烈”。尽管我确信心理学不一定是统计上最复杂的科学领域,但它已经很容易讨论、研究——有时甚至证明——各种统计推断方法的局限性,或者至少它们如何受到人类使用的限制。已经发布的答案包括很好的见解,但如果您对支持和反对每个原因的更广泛的列表(和参考)感兴趣,请参见下文。

为什么 p 值不受欢迎?

  • 正如 Darren James 所指出的(以及他的模拟显示),p 值在很大程度上取决于您所拥有的观察次数(参见 Kirk,2003)
  • 正如 Jon 所指出的,在原假设为真的情况下,p 值表示观察数据为极端或更极端的条件概率。由于大多数研究人员宁愿拥有研究假设和/或零假设的概率,p 值并不代表研究人员最感兴趣的概率(即,零假设或研究假设,参见 Dienes,2008)
  • 许多使用 p 值的人不理解它们的意思/不意味着什么(Schmidt & Hunter, 1997)。Michael Lew 对 Gelman 和 Stern (2006) 论文的引用进一步强调了研究人员对可以(或不能)从 p 值解释什么的误解。正如FiveThirtyEight 上一个相对较新的故事所表明的那样,情况仍然如此。
  • p 值在预测后续 p 值方面并不出色(Cumming,2008)
  • p 值经常被误报(通常夸大显着性),误报与不愿共享数据有关(Bakker & Wicherts,2011;Nuijten 等,2016;Wicherts 等,2011)
  • p 值可能(并且在历史上一直)通过分析灵活性被积极扭曲,因此不可信(John et al., 2012; Simmons et al., 2011)
  • p 值非常重要,因为学术系统似乎奖励科学家的统计意义超过科学准确性(Fanelli,2010;Nosek 等人,2012;Rosenthal,1979)

为什么效果大小是可取的?

请注意,我将您的问题解释为专门指标准化效应大小,正如您所说,它们允许研究人员将他们的发现“转化为一个共同的指标”。

  • 正如 Jon 和 Darren James 所指出的,效应大小表示效应的大小,与观察次数无关(美国心理学会 2010;Cumming,2014),而不是对效应是否存在做出二分法决定。
  • 效应量很有价值,因为它们使荟萃分析成为可能,而荟萃分析推动知识的积累(Borenstein 等,2009;Chan & Arvey,2012)
  • 效应量有助于通过先验功效分析促进样本量规划,从而在研究中进行有效的资源分配 (Cohen, 1992)

为什么 p 值是可取的?

尽管 p 值的支持频率较低,但 p 值有许多好处。有些是众所周知的且由来已久,而另一些则相对较新。

  • P 值提供了针对统计模型零假设的证据强度的方便且熟悉的指数。

  • 如果计算正确,p 值提供了一种做出二分法决策的方法(有时这是必要的),p 值有助于将长期假阳性错误率保持在可接受的水平(Dienes,2008;Sakaluk,2016)[它说二分决策需要 P 值并不完全正确。它们确实以这种方式被广泛使用,但 Neyman & Pearson 在测试统计空间中为此目的使用了“关键区域”。请参阅此问题及其答案]

  • p 值可用于促进持续有效的样本量规划(不仅仅是一次性功率分析)(Lakens,2014)
  • p 值可用于促进荟萃分析和评估证据价值(Simonsohn 等人,2014a;Simonsohn 等人,2014b)。有关如何以这种方式使用 p 值分布的可访问讨论,请参阅此博客文章,以及有关相关讨论的此 CV 帖子
  • p 值可以在取证上用于确定是否使用了有问题的研究实践,以及结果的可复制性如何(Schimmack,2014;另见 Schönbrodt 的应用程序,2015)

为什么效果大小不受欢迎(或被高估)?

对许多人来说,这可能是最违反直觉的立场;为什么报告标准化效应量是不可取的,或者至少是被高估的?

  • 在某些情况下,标准化的效果大小并不是他们所说的全部(例如,Greenland, Schlesselman, & Criqui, 1986)。特别是 Baguely (2009) 很好地描述了原始/非标准化效应大小可能更可取的一些原因。
  • 尽管它们可用于先验功率分析,但实际上并不能可靠地使用效应量来促进有效的样本量规划(Maxwell,2004)
  • 即使在样本量规划中使用了效应量,因为它们会因发表偏差而被夸大(Rosenthal,1979),已发表的效应量对于可靠的样本量规划的效用是有问题的(Simonsohn,2013)
  • 效应量估计可能——并且已经——在统计软件中系统地错误计算(Levine & Hullet,2002)
  • 效应量被错误地提取(并且可能被误报),这破坏了荟萃分析的可信度(Gøtzsche 等,2007)
  • 最后,校正效应量的发表偏倚仍然无效(参见 Carter 等人,2017 年),如果您认为存在发表偏倚,则荟萃分析的影响会降低。

概括

与 Michael Lew 的观点相呼应,p 值和效应大小只是两个统计证据;还有其他值得考虑的。但与 p 值和效应大小一样,其他证据价值指标也存在共同和独特的问题。例如,研究人员通常会误用和误解置信区间(例如,Hoekstra 等人,2014;Morey 等人,2016),并且贝叶斯分析的结果可能会被研究人员扭曲,就像使用 p 值时一样(例如,Simonsohn , 2014)。

所有的证据指标都已经赢了,而且都必须有奖。

参考

美国心理协会。(2010)。美国心理学会出版手册(第 6 版)。华盛顿特区:美国心理学会。

Baguley, T. (2009)。标准化或简单效应量:应该报告什么?英国心理学杂志,100(3),603-617。

Bakker, M. 和 Wicherts, JM (2011)。心理学期刊中统计结果的(错误)报告。行为研究方法,43(3),666-678。

Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009)。荟萃分析导论。英国西萨塞克斯郡:John Wiley & Sons, Ltd.

Carter, EC, Schönbrodt, FD, Gervais, WM 和 Hilgard, J.(2017 年 8 月 12 日)。纠正心理学偏见:元分析方法的比较。取自 osf.io/preprints/psyarxiv/9h3nu

Chan, ME 和 Arvey, RD (2012)。元分析和知识的发展。心理科学观点,7(1),79-92。

科恩,J. (1992)。电源底漆。心理公报,112(1),155-159。 

卡明,G.(2008 年)。复制和 p 区间:p 值只能模糊地预测未来,但置信区间做得更好。心理科学观点,3, 286–300。

Dienes, D. (2008)。将心理学理解为一门科学:科学和统计推理导论。纽约,纽约:帕尔格雷夫麦克米伦。

Fanelli, D. (2010)。“积极”的结果增加了科学的等级。公共科学图书馆一号,5(4),e10068。

Gelman, A. 和 Stern, H. (2006)。“显着”和“不显着”之间的差异本身在统计上并不显着。美国统计学家,60(4),328-331。

Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007)。使用标准化均值差异的荟萃分析中的数据提取错误。美国医学会杂志,298(4),430-437。

Greenland, S.、Schlesselman, JJ 和 Criqui, MH (1986)。使用标准化回归系数和相关性作为效果度量的谬误。美国流行病学杂志,123(2),203-208。

Hoekstra, R., Morey, RD, Rouder, JN 和 Wagenmakers, EJ (2014)。对置信区间的严重误解。心理公告和评论,21(5),1157-1164。

John, LK, Loewenstein, G. 和 Prelec, D. (2012)。用讲真话的激励措施来衡量可疑研究实践的普遍性。心理科学,23(5),524-532。

柯克,RE (2003)。影响幅度的重要性。在 SF Davis (Ed.), 实验心理学研究方法手册 (pp. 83–105)。马萨诸塞州马尔登:布莱克威尔。

莱肯斯,D.(2014 年)。通过序贯分析有效地进行高效研究。欧洲社会心理学杂志,44(7),701-710。

莱文,TR 和 Hullett,CR(2002 年)。传播研究中的 Eta 平方、部分 eta 平方和误报效应大小。人类传播研究,28(4),612-625。

麦克斯韦,SE(2004 年)。心理学研究中动力不足的研究持续存在:原因、后果和补救措施。心理方法,9(2),147。

Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD 和 Wagenmakers, EJ (2016)。对置信区间置信的谬误。心理公告和评论,23(1),103-123。

Nosek, BA, Spies, JR 和 Motyl, M. (2012)。科学乌托邦:II。重组激励措施和实践,以促进真理而不是可发表性。心理科学观点,7(6),615-631。

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S., & Wicherts, JM (2016)。心理学统计报告错误的普遍性(1985-2013)。行为研究方法,48(4),1205-1226。

罗森塔尔,R. (1979)。文件抽屉问题和对空结果的容忍度。心理公报,86(3),638-641。

萨卡鲁克,JK(2016 年)。探索小,确认大:用于推进累积和可复制心理学研究的新统计数据的替代系统。实验社会心理学杂志,66,47-54。

美国希马克 (2014)。量化统计研究完整性:可复制性指数。取自http://www.r-index.org 

佛罗里达州施密特和 JE 亨特 (1997)。在研究数据分析中停止显着性检验的八个常见但错误的反对意见。在 LL Harlow、SA Mulaik 和 JH Steiger (Eds.) 中,如果没有显着性检验怎么办?(第 37-64 页)。新泽西州马瓦:厄尔鲍姆。

Schönbrodt, FD (2015)。p-checker:一对一的 p 值分析器。从http://shinyapps.org/apps/p-checker/检索。 

Simmons, JP, Nelson, LD 和 Simonsohn, U. (2011)。假阳性心理学:数据收集和分析中未公开的灵活性允许呈现任何重要的东西。心理科学,22(11),1359-1366。

美国西蒙松 (2013)。基于观察到的效应大小为复制提供动力是愚蠢的。取自http://datacolada.org/4

美国西蒙松 (2014)。后黑客。取自http://datacolada.org/13

Simonsohn, U., Nelson, LD 和 Simmons, JP (2014)。P曲线:文件抽屉的钥匙。实验心理学杂志:一般,143(2),534-547。

Simonsohn, U., Nelson, LD 和 Simmons, JP (2014)。P 曲线和效应大小:仅使用显着结果校正发表偏倚。心理科学观点,9(6),666-681。

Wicherts, JM, Bakker, M. 和 Molenaar, D. (2011)。分享研究数据的意愿与证据的强度和统计结果报告的质量有关。公共科学图书馆一号,6(11),e26828。