在没有假设的情况下 P 值的丰度

机器算法验证 可能性 假设检验 统计学意义 p 值
2022-01-16 04:39:26

我研究流行病学。我不是统计学家,但我尝试自己进行分析,尽管我经常遇到困难。大约 2 年前,我进行了第一次分析。从描述表到回归分析,我的分析中到处都包含 P 值(我只是做了其他研究人员正在做的事情)。渐渐地,在我公寓工作的统计学家说服我跳过所有(!)p值,除了我真正有假设的地方。

问题是医学研究出版物中的 p 值很多。在太多的行上包含 p 值是常规的;均值、中位数或任何通常与 p 值一起出现的描述性数据(学生 t 检验、卡方等)。

我最近向期刊提交了一篇论文,但我拒绝(礼貌地)将 p 值添加到我的“基线”描述表中。这篇论文最终被拒绝了。

举例来说,见下图;它是来自受人尊敬的内科杂志上最新发表的文章的描述表。 在此处输入图像描述

统计学家主要(如果不是总是)参与审查这些手稿。因此,像我这样的外行期望在没有假设的情况下找不到任何 p 值。但是它们很丰富,但是我仍然难以捉摸其中的原因。我很难相信这是无知。

我意识到这是一个临界统计问题。但我正在寻找这种现象背后的基本原理。

4个回答

显然,我不需要告诉你什么是 p 值,或者为什么过度依赖它们是一个问题;你显然已经足够了解这些事情了。

对于出版,您有两个相互竞争的压力。

第一个——也是你应该在每一个合理的机会中推动的一个——是做有意义的事情。

第二个,归根结底,是实际发布的需要。如果没有人看到你在改革糟糕的实践方面所做的出色努力,那么几乎没有什么收获。

因此,与其完全避免它:

  • 尽可能少做这种无意义的活动

  • 如果您认为它会有所帮助,也许可以提及这篇最近的 Nature methods 文章[1],或者可能是更好的一个或多个其他参考资料。它至少应该有助于确定对 p 值的首要地位存在一些反对意见。

  • 考虑其他期刊,如果其他期刊合适

其他学科也一样吗?

过度使用 p 值的问题出现在许多学科中(当有一些假设时,这甚至可能是一个问题,但在某些学科中比在其他学科中要少得多。一些学科确实存在 p-value-itis 的问题,而导致的问题最终会导致一些过度夸大的反应[2](在较小程度上,[1],至少在某些地方,其他一些以及)。

我认为有多种原因,但过度依赖 p 值似乎获得了自己的动力——说“重要”并拒绝人们似乎认为非常有吸引力的零值是有道理的;各个学科(例如,参见 [3][4][5][6][7][8][9][10][11])已经(取得了不同程度的成功)一直在与过度依赖p 值(特别是 = 0.05)多年来,并提出了许多不同类型的建议 - 并非所有我都同意,但我包含了各种观点,以对人们不得不做的不同事情有所了解说。α

其中一些主张关注置信区间,一些主张关注效应大小,一些主张贝叶斯方法,一些较小的 p 值,一些只是避免以特定方式使用 p 值,等等。有很多不同的观点来代替做什么,但是在他们之间有很多关于依赖 p 值的问题的材料,至少它是非常普遍的做法。

依次参见这些参考资料以获取更多参考资料。这只是一个示例——可以找到更多的参考资料。一些作者给出了他们认为 p 值普遍存在的原因。

如果您确实想与编辑争论这一点,其中一些参考资料可能会很有用。

[1] Halsey LG、Curran-Everett D.、Vowler SL 和 Drummond GB (2015),
“变化无常的 P 值产​​生不可重现的结果”,
Nature Methods 12 , 179–185 doi:10.1038/nmeth.3288
http://www .nature.com/nmeth/journal/v12/n3/abs/nmeth.3288.html

[2] David Trafimow, D. 和 Marks, M. (2015),
社论,
基础和应用社会心理学37 :1-2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080/01973533.2015.1012991

[3] Cohen, J. (1990),
Things I have learned (so far),
American Psychologist , 45 (12), 1304–1312。

[4] Cohen, J. (1994),
地球是圆的 (p < .05),
American Psychologist , 49 (12), 997–1003。

[5] Valen E. Johnson (2013),PNAS
统计证据修订标准 ,第一卷。110,没有。48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke JK (2010),
相信什么:数据分析的贝叶斯方法,
认知科学趋势 14 (7), 293-300

[7] Ioannidis, J. (2005)
为什么大多数已发表的研究结果都是错误的,
PLoS Med。八月; 2(8):e124。
doi: 10.1371/journal.pmed.0020124

[8] Gelman, A. (2013),P 值和统计实践,
流行病学卷。24号 1 月 69-72

[9] Gelman, A.(2013 年),
“p 值的问题在于它们的使用方式”,
(关于“为 P 值辩护”的讨论,Paul Murtaugh 为生态学)未发表
http:// citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf

[10] Nuzzo R. (2014),
统计误差:P 值,统计有效性的“黄金标准”,并不像许多科学家认为的那样可靠,
新闻和评论,
自然,卷。506 (13)、150-152

[11] Wagenmakers E,(2007)
P 值普遍问题的实用解决方案,
Psychonomic Bulletin & Review 14 (5), 779-804

p 值,或更一般地说,零假设显着性检验 (NHST),正慢慢保持越来越低的价值。如此之多,以至于已经开始在期刊中被禁止。

大多数人不明白 p 值真正告诉我们什么以及它为什么告诉我们这一点,即使它无处不在。

问题是 p 值告诉我们P(Data|H0)并不是P(H0|Data),这是信息量更大的一个。后者涉及到贝叶斯推理的使用,为模型检验的结论提供了更强有力的依据。

的概率H0鉴于我们观察到的数据,模型是真实/重要的,比我们的数据拟合的概率具有更强的含义H0模型。

其他学科也一样吗?痴迷于 p 值的原因是什么?

格林沃尔德等人。(1996)试图处理这个关于心理学的问题。至于也将 NHST 应用于基线差异,大概编辑会(正确或错误地)决定“不显着”的基线差异不能解释结果,而“显着”的基线差异可以解释结果。这类似于 Greenwald 等人提出的“原因 1”。

为什么 NHT 仍然受欢迎?

“为什么 NHT 不屈服于批评?由于缺乏更好的答案,人们很容易将 NHT 的持续存在归因于行为科学家缺乏个性。行为科学家不愿放弃获得可能虚假的零假设拒绝的罪恶感,这可能就像一个饮酒者不愿意放弃餐前鸡尾酒的习惯一样……”

原因一:HT 提供了二分法的结果

“由于 p < .05 转换为“统计显着性”的惯例被广泛采用,NHT 可用于对有关零假设的问题产生二分答案(拒绝或不拒绝)。这通常被认为作为对根据预测方向而不是根据参数的期望值陈述的理论问题的有用答案……”

原因 2:p 值作为测试统计的有意义的通用语言翻译

“与任何可以直接从 t、F 或 r 值(及其相关联的 df )感知的东西不同,ap 值的惊喜度量只是通过其小数点右侧连续零的数量来捕获......”

原因 3:p 值提供了“在零假设拒绝的可重复性中的置信度”

“[U] 与效应大小(或置信区间)类似,由 NHT 产生的 ap 值与对非空结果的可复制性的估计单调相关。在此声明中,可复制性(在下面更正式地定义)旨在仅在其 NHT 意义上重复拒绝-非拒绝结论,而不是在其估计点或区间估计之间接近的意义上。”

效应大小和 p 值:应该报告什么,应该复制什么?安东尼 G. 格林沃尔德、理查德·冈萨雷斯、理查德·J. 哈里斯和唐纳德·格思里。心理生理学,33 (1996)。175-183。剑桥大学出版社。在美国印刷。版权所有 O 1996 心理生理研究学会

P 值提供有关从两个群体中抽样的两组结果(“治疗”与“对照”、“A”与“B”等)之间差异的信息。差异的性质在假设陈述中被形式化——例如“A 的平均值大于 B 的平均值”。低 p 值表明差异不是由随机变化引起的,而高 p 值表明两个样本中的差异无法与可能仅由随机变化引起的差异区分开来。p 值的“低”或“高”在历史上一直是惯例和品味的问题,而不是通过严格的逻辑或证据分析确定的。

使用 p 值的先决条件是两组结果确实具有可比性,即它们之间唯一的差异来源与您正在评估的变量有关。举个夸张的例子,假设你有两个时间段内两种疾病的统计数据——A:1920-1930 年英国监狱中男性的霍乱死亡率,B:1960-1970 年尼日利亚的疟疾感染。从这两组数据中计算 p 值将是相当荒谬的。现在,如果 A:英国监狱中未接受治疗的男性霍乱死亡率与 B:英国监狱中接受补液治疗的男性霍乱死亡率,那么您就有了可靠统计假设的基础。

大多数情况下,这是通过仔细的实验​​设计、仔细的调查设计或仔细收集历史数据等来实现的。此外,两个结果之间的差异必须形式化为涉及样本统计的假设陈述——通常是样本均值,但也可以是样本方差或其他样本统计量。也可以使用随机优势创建假设语句,将两个样本分布作为一个整体进行比较。这些是罕见的。

关于 p 值的争论集中在“什么是真正重要的”研究上?这就是效应大小的用武之地。基本上,效应大小是两组之间差异的大小。可能具有高统计显着性(低 p 值 -> 不是由于随机变化)但也可能具有低效应大小(幅度差异很小)。当效应量非常大时,允许稍高的 p 值可能是可以的。

大多数学科现在都在非常强烈地转向报告效应大小,并减少或最小化 p 值的作用。他们还鼓励对样本分布进行更多描述性统计。包括贝叶斯统计在内的一些方法完全取消了 p 值。


我的回答是浓缩和简化的。有很多关于此主题的文章,您可以查阅更多详细信息、理由和细节,包括: