在我的领域(心理学)中经常讨论相对于 p 值(以及其他统计推断指标)的效应大小的效用,并且由于与您的问题相关的原因,目前的辩论比正常情况“更激烈”。尽管我确信心理学不一定是统计上最复杂的科学领域,但它已经很容易讨论、研究——有时甚至证明——各种统计推断方法的局限性,或者至少它们如何受到人类使用的限制。已经发布的答案包括很好的见解,但如果您对支持和反对每个原因的更广泛的列表(和参考)感兴趣,请参见下文。
为什么 p 值不受欢迎?
- 正如 Darren James 所指出的(以及他的模拟显示),p 值在很大程度上取决于您所拥有的观察次数(参见 Kirk,2003)
- 正如 Jon 所指出的,在原假设为真的情况下,p 值表示观察数据为极端或更极端的条件概率。由于大多数研究人员宁愿拥有研究假设和/或零假设的概率,p 值并不代表研究人员最感兴趣的概率(即,零假设或研究假设,参见 Dienes,2008)
- 许多使用 p 值的人不理解它们的意思/不意味着什么(Schmidt & Hunter, 1997)。Michael Lew 对 Gelman 和 Stern (2006) 论文的引用进一步强调了研究人员对可以(或不能)从 p 值解释什么的误解。正如FiveThirtyEight 上一个相对较新的故事所表明的那样,情况仍然如此。
- p 值在预测后续 p 值方面并不出色(Cumming,2008)
- p 值经常被误报(通常夸大显着性),误报与不愿共享数据有关(Bakker & Wicherts,2011;Nuijten 等,2016;Wicherts 等,2011)
- p 值可能(并且在历史上一直)通过分析灵活性被积极扭曲,因此不可信(John et al., 2012; Simmons et al., 2011)
- p 值非常重要,因为学术系统似乎奖励科学家的统计意义超过科学准确性(Fanelli,2010;Nosek 等人,2012;Rosenthal,1979)
为什么效果大小是可取的?
请注意,我将您的问题解释为专门指标准化效应大小,正如您所说,它们允许研究人员将他们的发现“转化为一个共同的指标”。
- 正如 Jon 和 Darren James 所指出的,效应大小表示效应的大小,与观察次数无关(美国心理学会 2010;Cumming,2014),而不是对效应是否存在做出二分法决定。
- 效应量很有价值,因为它们使荟萃分析成为可能,而荟萃分析推动知识的积累(Borenstein 等,2009;Chan & Arvey,2012)
- 效应量有助于通过先验功效分析促进样本量规划,从而在研究中进行有效的资源分配 (Cohen, 1992)
为什么 p 值是可取的?
尽管 p 值的支持频率较低,但 p 值有许多好处。有些是众所周知的且由来已久,而另一些则相对较新。
P 值提供了针对统计模型零假设的证据强度的方便且熟悉的指数。
如果计算正确,p 值提供了一种做出二分法决策的方法(有时这是必要的),p 值有助于将长期假阳性错误率保持在可接受的水平(Dienes,2008;Sakaluk,2016)[它说二分决策需要 P 值并不完全正确。它们确实以这种方式被广泛使用,但 Neyman & Pearson 在测试统计空间中为此目的使用了“关键区域”。请参阅此问题及其答案]
- p 值可用于促进持续有效的样本量规划(不仅仅是一次性功率分析)(Lakens,2014)
- p 值可用于促进荟萃分析和评估证据价值(Simonsohn 等人,2014a;Simonsohn 等人,2014b)。有关如何以这种方式使用 p 值分布的可访问讨论,请参阅此博客文章,以及有关相关讨论的此 CV 帖子。
- p 值可以在取证上用于确定是否使用了有问题的研究实践,以及结果的可复制性如何(Schimmack,2014;另见 Schönbrodt 的应用程序,2015)
为什么效果大小不受欢迎(或被高估)?
对许多人来说,这可能是最违反直觉的立场;为什么报告标准化效应量是不可取的,或者至少是被高估的?
- 在某些情况下,标准化的效果大小并不是他们所说的全部(例如,Greenland, Schlesselman, & Criqui, 1986)。特别是 Baguely (2009) 很好地描述了原始/非标准化效应大小可能更可取的一些原因。
- 尽管它们可用于先验功率分析,但实际上并不能可靠地使用效应量来促进有效的样本量规划(Maxwell,2004)
- 即使在样本量规划中使用了效应量,因为它们会因发表偏差而被夸大(Rosenthal,1979),已发表的效应量对于可靠的样本量规划的效用是有问题的(Simonsohn,2013)
- 效应量估计可能——并且已经——在统计软件中系统地错误计算(Levine & Hullet,2002)
- 效应量被错误地提取(并且可能被误报),这破坏了荟萃分析的可信度(Gøtzsche 等,2007)
- 最后,校正效应量的发表偏倚仍然无效(参见 Carter 等人,2017 年),如果您认为存在发表偏倚,则荟萃分析的影响会降低。
概括
与 Michael Lew 的观点相呼应,p 值和效应大小只是两个统计证据;还有其他值得考虑的。但与 p 值和效应大小一样,其他证据价值指标也存在共同和独特的问题。例如,研究人员通常会误用和误解置信区间(例如,Hoekstra 等人,2014;Morey 等人,2016),并且贝叶斯分析的结果可能会被研究人员扭曲,就像使用 p 值时一样(例如,Simonsohn , 2014)。
所有的证据指标都已经赢了,而且都必须有奖。
参考
美国心理协会。(2010)。美国心理学会出版手册(第 6 版)。华盛顿特区:美国心理学会。
Baguley, T. (2009)。标准化或简单效应量:应该报告什么?英国心理学杂志,100(3),603-617。
Bakker, M. 和 Wicherts, JM (2011)。心理学期刊中统计结果的(错误)报告。行为研究方法,43(3),666-678。
Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009)。荟萃分析导论。英国西萨塞克斯郡:John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM 和 Hilgard, J.(2017 年 8 月 12 日)。纠正心理学偏见:元分析方法的比较。取自 osf.io/preprints/psyarxiv/9h3nu
Chan, ME 和 Arvey, RD (2012)。元分析和知识的发展。心理科学观点,7(1),79-92。
科恩,J. (1992)。电源底漆。心理公报,112(1),155-159。
卡明,G.(2008 年)。复制和 p 区间:p 值只能模糊地预测未来,但置信区间做得更好。心理科学观点,3, 286–300。
Dienes, D. (2008)。将心理学理解为一门科学:科学和统计推理导论。纽约,纽约:帕尔格雷夫麦克米伦。
Fanelli, D. (2010)。“积极”的结果增加了科学的等级。公共科学图书馆一号,5(4),e10068。
Gelman, A. 和 Stern, H. (2006)。“显着”和“不显着”之间的差异本身在统计上并不显着。美国统计学家,60(4),328-331。
Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007)。使用标准化均值差异的荟萃分析中的数据提取错误。美国医学会杂志,298(4),430-437。
Greenland, S.、Schlesselman, JJ 和 Criqui, MH (1986)。使用标准化回归系数和相关性作为效果度量的谬误。美国流行病学杂志,123(2),203-208。
Hoekstra, R., Morey, RD, Rouder, JN 和 Wagenmakers, EJ (2014)。对置信区间的严重误解。心理公告和评论,21(5),1157-1164。
John, LK, Loewenstein, G. 和 Prelec, D. (2012)。用讲真话的激励措施来衡量可疑研究实践的普遍性。心理科学,23(5),524-532。
柯克,RE (2003)。影响幅度的重要性。在 SF Davis (Ed.), 实验心理学研究方法手册 (pp. 83–105)。马萨诸塞州马尔登:布莱克威尔。
莱肯斯,D.(2014 年)。通过序贯分析有效地进行高效研究。欧洲社会心理学杂志,44(7),701-710。
莱文,TR 和 Hullett,CR(2002 年)。传播研究中的 Eta 平方、部分 eta 平方和误报效应大小。人类传播研究,28(4),612-625。
麦克斯韦,SE(2004 年)。心理学研究中动力不足的研究持续存在:原因、后果和补救措施。心理方法,9(2),147。
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD 和 Wagenmakers, EJ (2016)。对置信区间置信的谬误。心理公告和评论,23(1),103-123。
Nosek, BA, Spies, JR 和 Motyl, M. (2012)。科学乌托邦:II。重组激励措施和实践,以促进真理而不是可发表性。心理科学观点,7(6),615-631。
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S., & Wicherts, JM (2016)。心理学统计报告错误的普遍性(1985-2013)。行为研究方法,48(4),1205-1226。
罗森塔尔,R. (1979)。文件抽屉问题和对空结果的容忍度。心理公报,86(3),638-641。
萨卡鲁克,JK(2016 年)。探索小,确认大:用于推进累积和可复制心理学研究的新统计数据的替代系统。实验社会心理学杂志,66,47-54。
美国希马克 (2014)。量化统计研究完整性:可复制性指数。取自http://www.r-index.org
佛罗里达州施密特和 JE 亨特 (1997)。在研究数据分析中停止显着性检验的八个常见但错误的反对意见。在 LL Harlow、SA Mulaik 和 JH Steiger (Eds.) 中,如果没有显着性检验怎么办?(第 37-64 页)。新泽西州马瓦:厄尔鲍姆。
Schönbrodt, FD (2015)。p-checker:一对一的 p 值分析器。从http://shinyapps.org/apps/p-checker/检索。
Simmons, JP, Nelson, LD 和 Simonsohn, U. (2011)。假阳性心理学:数据收集和分析中未公开的灵活性允许呈现任何重要的东西。心理科学,22(11),1359-1366。
美国西蒙松 (2013)。基于观察到的效应大小为复制提供动力是愚蠢的。取自http://datacolada.org/4
美国西蒙松 (2014)。后黑客。取自http://datacolada.org/13。
Simonsohn, U., Nelson, LD 和 Simmons, JP (2014)。P曲线:文件抽屉的钥匙。实验心理学杂志:一般,143(2),534-547。
Simonsohn, U., Nelson, LD 和 Simmons, JP (2014)。P 曲线和效应大小:仅使用显着结果校正发表偏倚。心理科学观点,9(6),666-681。
Wicherts, JM, Bakker, M. 和 Molenaar, D. (2011)。分享研究数据的意愿与证据的强度和统计结果报告的质量有关。公共科学图书馆一号,6(11),e26828。