当我仔细查看 p 值的定义时:
其中表示原假设为真,因此条件为负。具有检验统计量意味着拒绝假设,所以我认为它与基于Wiki 混淆表的误报率 (FPR) 的定义相匹配,即 1 - 特异性。
因此,p-value + specificity = 1,将 p-value 控制在某个截止值(即)以下,就等同于将 specificity 控制在 1 -以上。这样的推理正确吗?我感到不确定,因为我没有听到人们经常讨论 p 值和特异性。
更新(2018-05-23):
正如@Elvis 所指出的,我犯了一个概念上的错误。应该是
而不是 p 值。请注意,p 值是一个随机变量,而和特异性是常数。
换句话说,当我们进行零假设检验时,我们将检验的特异性强制为 1 -。通过思想实验,这个想法变得显而易见。
为了匹配条件零假设成立,您从同一分布中抽取两个样本,然后进行 t 检验。你做N次。如果您设置,那么有 5% 的时间您会得到 p 值 < 0.05,从而拒绝相应的假设。由于在每次测试期间,样本总是从相同的分布中抽取,所以零假设总是正确的,而被拒绝的假设会导致 I 类错误。因此,特异性为 0.95,FPR 为 0.05。
在@Tim 提出的另一条注释中,除了说明和特异性之和为一之外,上面还说明了另一个问题,即p 值对 FDR 没有任何帮助。在上述思想实验中,错误发现率 (FDR) 为 1,即被拒绝的假设都是误报/发现,因为与特异性无关,先验概率为 0(始终为空)。这个问题已被广泛讨论。除了@Tim 提到的一些帖子,我推荐
- 对错误发现率和 p 值误解的调查,David Colquhoun, R. Soc。开放科学。2014 1 140216; DOI:10.1098/rsos.140216。http://rsos.royalsocietypublishing.org/content/1/3/140216
- Ioannidis JPA (2005)为什么大多数已发表的研究结果都是错误的。PLoS Med 2(8):e124。https://doi.org/10.1371/journal.pmed.0020124
- 大多数已发表的研究真的是假的吗?Jeffrey T. Leek 和 Leah R. Jager,统计及其应用年度回顾 2017 4:1, 109-122, https://www.annualreviews.org/doi/10.1146/annurev-statistics-060116-054104
第一个非常可读。第二个暴露了这个问题的严重性。第三个试图更乐观一些,但我认为结论仍然是严肃的。此外,我还将 FDR 绘制为不同先验概率 ( ) 下敏感性和特异性的函数。关键的见解是,当先验概率很低时,即使特异性和敏感性(不太重要)很高,FDR 仍然可能非常高。比如先验概率为0.01,特异性为0.95(对应常用的然而,如果设置为 0.001,您会看到 FDR 急剧下降,如下所示(第一个子图)。一般来说,通常过于慷慨,这会导致可复制性受到很大挫折,甚至会放弃 p 值。
绘制的函数是
此Jupyter notebook中提供了有关绘图的详细信息。

