适应 p 值的根深蒂固的观点

机器算法验证 推理 p 值
2022-01-22 00:59:36

有时在报告中我会包含关于我提供的 p 值和其他推论统计的免责声明。我说既然样本不是随机的,那么这样的统计数据就不会严格适用。我的具体措辞通常在脚注中给出:

“虽然严格来说,推论统计仅适用于随机抽样的情况下,但我们遵循惯例报告显着性水平和/或置信区间作为方便的尺度,即使对于非随机样本也是如此。参见迈克尔奥克斯的 统计推断:社会和行为科学 (纽约:威利,1986 年)。

有几次——一次是针对同行评审的论文,一次或两次是在非学术环境中——编辑或审稿人反对这一免责声明,称其令人困惑,并认为推论性的发现应该简单地保持原样(并被赋予权威的披风)。有没有其他人遇到过这个问题并找到了好的解决方案?一方面,人们对 p 值的理解普遍令人沮丧,即使是在随机抽样的背景下,所以也许我们所说的并不重要。另一方面,进一步加深误解似乎是问题的一部分。我应该补充一点,我经常处理调查研究,其中随机分配不适用,蒙特卡洛模拟通常无法解决代表性问题。

3个回答

推论统计的使用不仅可以基于总体模型,还可以基于随机化模型。后者不对样本的获取方式做出任何假设。事实上,Fisher 是建议随机化模型应作为统计推断基础的人(与 Neyman 和 Pearson 不同)。参见,例如:

恩斯特,医学博士(2004 年)。排列方法:精确推理的基础。统计科学,19,676-685。[链接(开放访问)]

Ludbrook, J. 和 Dudley, H. (1998)。为什么在生物医学研究中置换检验优于 t 和 F 检验。美国统计学家,52,127-132。[链接(如果您有 JSTOR 访问权限)]

我不知何故怀疑相关编辑或审稿人是否以此为理由称您的免责声明“令人困惑”。

确实有一个论点必须不包括免责声明。坦率地说,我会在期刊文章中发现一篇关于 p 值性质的简短论文有点令人反感,我不得不暂停一下,试着弄清楚你是否做了一些特别的事情。 .esoteric ...保证将空间用于定义点。

基本上,作为审阅者,我认为这是不必要的,因为读者应该已经知道 p 值是什么以及做什么。我什至可能会反对它,因为做这样的笔记实际上并不能防止伴随 p 值出现的许多分析和解释犯罪中的任何一种,它只是披上了“相信我,我知道我在做什么”的外衣。这也有点奇怪——“我要大胆地反对 p 值,但不要那么大胆,我不报告它们”。

当我考虑“对 p 值的根深蒂固的观点”时,我不太关心您在上面发布的内容,而关心审稿人坚持统计显着性以便发表或论文的重点(放一个发现的明星,突然变成了一件大事)或将统计意义与发现的意义相结合。

我还没有与任何糟糕的评论家打架,所以我不会声称知道如何摆脱已经开始的战斗。然而,如果他们的反对仅仅是阻碍性的无知,那么先发制人的转移注意力可能会奏效。如果p事实上,尽管在有问题的研究(太多已发表文章都属于这一类)中它们的无效性不可忽略,但实际上有必要报告它们,人们可能会含蓄地淡化它们。考虑把你的叙述重点——甚至可能完全——放在效果大小上。如果您的研究具有足够的代表性以提供有用的信息(这不应该需要完全随机抽样,只需要注意解释的一般性),那么您的效应量应该具有更广泛的含义,而不仅仅是表明关系或差异的存在和方向。将讨论重点放在效应量上有助于更深入地了解实际意义上的关系或差异的重要性,尽管这仍然需要在研究主题的背景下考虑(例如,r=.03可能涉及生死攸关的问题,它必然是不重要的;罗森塔尔、鲁宾和罗斯诺,2000)您可以通过“弱”、“中”或“强”关系或“小”或“大”差异来讨论结果,而不是将它们称为“显着”和“无关紧要”;后两个词对于表达研究人员想要提出的大多数观点都是不必要的。如果值是必要的,让它们自己说话。帮元分析员帮忙,把它们夹在更全面的有价值的统计报告中:效应大小、置信区间和检验统计。pp值和需求置信区间,以便可以完全放弃(或者也许不是!见后记!)p

另一个可能互补的选择是扩展您的脚注。您对审稿人所经历的问题的描述以及此页面上目前接受的答案都表明没有传达足够的信息来解释您包含脚注的动机,也不足以激励读者遵循您对参考文献的引用你用它来如此简洁地解释它。一个单独的附加句子,甚至是您参考文献中的简短引述,都可以大大有助于解释脚注的价值并激发读者深入阅读。显然,你的脚注很快就会激发一种简单的、消极的、不屑一顾的反应,因为你低调地试图破坏他们对他们不正确假设的自满情绪。如果你向他们灌输一两个关于他们可能经常忽略的问题的要点,读者可能会在智力上不那么懒惰。此外,对于许多特殊问题p值,考虑引用的不仅仅是那本书,还有一篇相当简洁的期刊文章,目前可以在网上免费获得(例如,Goodman,2008 年Wagenmakers,2007 年这可能有助于减少由于难以获得一本书和在其中找到相关信息而产生的任何阻力。

PS 感谢Wagenmakers (2007 年)的 @rpierce和我回答的大部分逻辑,以及Goodman (2008 年)的 @FranciscoArceo !另请参阅弗朗西斯科的松散相关答案,以及交叉验证上有关正确解释值的其他一些热门帖子:p

值之前,PPS @MichaelLew 的对位也值得考虑参见Senn (2001)Lew (2013)的一些罕见且有价值(但只是部分)的辩护[编辑]:另外,我在一个新问题中提出了这个问题,“为什么 0.05 < p < 0.95 结果称为误报? ”在讨论我的答案时,OP 提出了Hurlbert and Lombardi (2009),我提出了和我的同事一起,其中一位后来提出了Nuzzo (2014),这是一篇全新的自然新闻文章,导致了更多的参考文献( Goodman, 2001pp, 1992; Gorroochurn, Hodge, Heiman, Durner, & Greenberg, 2007 ) ...我显然没有跟上这一点,但显然 Michael 并不是唯一一个捍卫从精确值中提取有用信息的可能性的人(当他们这样做时)至少“严格适用”)。p

参考

-古德曼,SN(1992)。对复制、P值和证据的评论。医学统计,11 (7), 875–879。
-古德曼,SN (2001)。P值和贝叶斯:一个适度的建议流行病学, 12 (3), 295–297。取自http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf
- Goodman, S. (2008)。肮脏的一打:十二个P值误解。血液学研讨会,45 (3), 135–140。取自http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf
- Gorroochern, P., Hodge, SE, Heiman, GA, Durner, M. 和 Greenberg, DA (2007)。关联研究的不可复制:复制的“伪失败”?医学遗传学,9 (6), 325–331。取自http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html
- Hurlbert, SH 和 Lombardi, CM (2009)。Neyman-Pearson 决策理论框架的最终崩溃和新费舍尔主义的兴起。动物年鉴 Fennici, 46 (5), 311–349。取自http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf
- 刘,MJ(2013 年)。To P or not to P:关于 P 值的证据性质及其在科学推理中的位置。arXiv:1311.0081 [stat.ME]。从...获得http://arxiv.org/abs/1311.0081
- Nuzzo, R.(2014 年 2 月 12 日)。科学方法:统计误差。自然新闻,506 (7487)。取自http://www.nature.com/news/scientific-method-statistical-errors-1.14700
- Rosenthal, R.、Rosnow, RL 和 Rubin, DB (2000)。行为研究中的对比和影响大小:一种相关方法。剑桥大学出版社。
- Senn, S. (2001)。为 P 值欢呼两声?流行病学和生物统计学杂志,6 (2), 193–204。取自http://www.phil.vt.edu/dmayo/conference_2010/Senn%20Two%20Cheers%20Paper.pdf
- Wagenmakers,EJ(2007 年)。解决普遍存在的问题的实用方法p值。心理公报与评论,14 (5), 779–804。取自http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf