机器算法验证 - 为什么 0.05 < p < 0.95 结果称为误报？ - 吾爱随笔录

为什么 0.05 < p < 0.95 结果称为误报？

机器算法验证假设检验 p 值

2022-03-07 06:48:36

编辑：我的问题的基础是有缺陷的，我需要花一些时间来弄清楚它是否可以变得有意义。

编辑 2：澄清我认识到 p 值不是零假设概率的直接度量，但我假设 p 值越接近 1，假设就越有可能被选择用于相应零假设为真的实验测试，而 p 值越接近 0，则越有可能选择了相应零假设为假的假设用于实验测试。除非所有假设（或为实验挑选的所有假设）的集合在某种程度上是病态的，否则我看不出这是怎么回事。

编辑3：我想我仍然没有使用明确的术语来问我的问题。随着彩票号码被读出，并且您将它们与您的彩票一一匹配，一些事情发生了变化。您获胜的概率不会改变，但您可以关闭收音机的概率会改变。完成实验时也会发生类似的变化，但我感觉我使用的术语——“p 值改变了选择正确假设的可能性”——不是正确的术语。

编辑 4：我收到了两个非常详细且内容丰富的答案，其中包含大量信息供我处理。我现在会投票给他们两个，然后当我从两个答案中学到足够的知识以知道他们已经回答或使我的问题无效时，我会回来接受一个。这个问题打开了一罐比我预期吃的大得多的蠕虫。

在我读过的论文中，我看到验证后 p > 0.05 的结果称为“误报”。但是，当实验数据的 ap ~~< 0.50~~较低但 > 0.05 并且既不是原假设和考虑到@NickStauner链接中指出的不对称性，研究假设在统计上不确定/不显着（考虑到传统的统计显着性截止值）在 0.05 < p < ~~0.95~~之间，无论 p < 0.05 的倒数是多少？

让我们将该数字称为 A，并将其定义为 p 值，它表示您为实验/分析选择了一个真正的零假设的可能性与 0.05 的 p 值表示您的可能性相同为您的实验/分析选择了一个真正的非零假设。0.05 < p < A 不只是说，“您的样本量不足以回答这个问题，并且在您获得更大的样本并获得统计数据之前，您将无法判断应用程序/现实世界的重要性意义整理”？

换句话说，当且仅当 p > A 时，将结果称为绝对错误（而不是简单地不受支持）不应该是正确的吗？

这对我来说似乎很简单，但如此广泛的用法告诉我，我可能错了。我是：

a）误解数学，
b）抱怨一个无害的，如果不是完全正确的约定，
c）完全正确，或
d）其他？

我承认这听起来像是在征求意见，但这似乎是一个具有明确数学正确答案的问题（一旦设置了显着性截止值），我或（几乎）其他人都错了。

2个回答

你的问题是基于一个错误的前提：

当 p < 0.50 时，零假设是否仍然更有可能出错？

p 值不是原假设为真的概率。例如，如果您选取一千个零假设为真的案例，其中一半将具有p < .5. 那一半都将是空的。

事实上，p > .95意味着零假设“可能是真的”的想法同样具有误导性。如果原假设为真，则的概率p > .95与的概率完全相同p < .05。

ETA：您的编辑更清楚地说明了问题所在：您仍然存在上述问题（您将 p 值视为后验概率，而实际上并非如此）。重要的是要注意，这不是一个微妙的哲学区别（正如我认为你在讨论彩票时所暗示的那样）：它对 p 值的任何解释都有巨大的实际意义。

但是您可以对 p值执行一种转换，它可以让您得到您正在寻找的东西，它被称为本地错误发现率。（正如这篇好论文所描述的，它是“后验错误概率”的常客等价物，所以如果你愿意，可以这样想）。

让我们看一个具体的例子。假设您正在执行 t 检验，以确定 10 个数字的样本（来自正态分布）的平均值是否为 0（单样本双边 t 检验）。首先，让我们看看当均值实际上为零时的 p 值分布是什么样子，用一个简短的 R 模拟：

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

在此处输入图像描述

正如我们所看到的，空 p 值具有均匀分布（在 0 和 1 之间的所有点上的可能性均等）。这是 p 值的必要条件：确实，这正是 p 值的含义！（假设 null 为真，有 5% 的可能性小于 0.05，有 10% 的可能性小于 0.1...）

现在让我们考虑备择假设——null 为假的情况。现在，这有点复杂：当 null 为假时，“有多假”？样本的平均值不是 0，而是 0.5？1？10？它是否随机变化，有时小有时大？为简单起见，假设它始终等于 0.5（但请记住这个复杂性，稍后会很重要）：

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

在此处输入图像描述

请注意，分布现在不均匀：它向 0 移动！在您的评论中，您提到了提供信息的“不对称”：这就是不对称。

所以想象一下你知道这两种分布，但是你正在做一个新的实验，你也有一个先验，它有 50% 的可能性是空的，50% 的可能性是替代的。你得到一个 0.7 的 p 值。你怎么能从那个和p值中得到一个概率？

你应该做的是比较密度：

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

并查看您的 p 值：

abline(v=.7, col="red", lty=2)

在此处输入图像描述

空值密度和替代密度之间的比率可用于计算局部错误发现率：空值相对于替代值越高，本地 FDR 越高。这是假设为空的概率（从技术上讲，它有一个更严格的常客解释，但我们在这里保持简单）。如果该值非常高，那么您可以解释为“零假设几乎可以肯定是正确的”。实际上，您可以为本地 FDR 设置 0.05 和 0.95 的阈值：这将具有您正在寻找的属性。（并且由于局部 FDR 随 p 值单调增加，至少如果你做得对，这些将转化为一些阈值 A 和 B，你可以说“

现在，我已经听到你在问“那我们为什么不使用它来代替 p 值呢？” 两个原因：

您需要确定测试为空的先验概率
您需要知道替代方案下的密度。这很难猜到，因为您需要确定效果大小和方差有多大，以及它们的频率有多高！

您不需要其中任何一个来进行 p 值测试，p 值测试仍然可以让您避免误报（这是它的主要目的）。现在，当您有数千个 p 值时，可以在多个假设检验中估计这两个值（例如，对数千个基因中的每一个进行一个测试：例如，参见本文或本文），但当您'正在做一个测试。

最后，您可能会说“论文是否仍然错误地说导致 p 值高于 0.05 的复制必然是误报？” 好吧，虽然得到一个 0.04 的 p 值和另一个 0.06 的 p 值确实并不意味着原始结果是错误的，但实际上它是一个合理的选择指标。但无论如何，您可能会很高兴知道其他人对此表示怀疑！你提到的那篇论文在统计学上有些争议：这篇论文使用了不同的方法，对医学研究的 p 值得出了非常不同的结论，然后该研究受到了一些著名的贝叶斯主义者的批评（并且一圈又一圈地进行下去） ...）。因此，虽然您的问题是基于一些关于 p 值的错误假设，但我认为它确实检查了您引用的论文部分的一个有趣假设。

^{将鼠标悬停在任何标签（是一个假标签）出现在下面以查看其 wiki 的简短摘录。请原谅行间距的中断。我觉得这很值得，因为标签摘录可以帮助读者在阅读时检查对行话的理解。其中一些摘录可能也值得编辑，因此它们也值得公关，恕我直言。 $\leftarrow$}

$p>.05$ 通常意味着不应该拒绝零假设. 反过来，类型 i 错误或者当一个人确实拒绝 null 时会发生误报，因为采样错误或其他一些不寻常的事件会产生样本否则不太可能（通常使用）从 $p<.05$ 人口其中 null 为真。的结果被称为假阳性似乎反映了对原假设的误解 $p>.05$ 显着性检验荷兰国际学校 (NHST)。误解在已发表的研究文献中并不少见，因为 NHST 是出了名的违反直觉。这是人民群众的呼声之一贝叶斯入侵（我支持，但不遵循......尚未）。直到最近，我自己也曾与这样的错误印象一起工作，所以我非常同情。

@DavidRobinson 观察到不是 null 为假的概率是正确的 $p$ 常客NHST。这（至少）是Goodman ⁽²⁰⁰⁸⁾值的“Dirty Dozen”误解之一 $p$ ^{（另见Hurlbert & Lombardi, 2009）}。在 NHST 中，是 $p$ 可能性一个人会以相同的方式抽取任何未来的随机样本，这些样本会表现出一种关系或差异（或其他任何规模效应正在针对零进行测试，如果存在其他各种效应大小......？）与零假设的差异至少与来自同一总体的样本的差异一样，已经测试达到给定的值，如果 null 为真。也就是说，是在给定 null的情况下获得像您这样的样本的概率；它不反映空值的概率——至少，不是直接的。相反，贝叶斯方法以他们的统计分析公式而自豪，因为他们专注于估计支持或反对的证据。 $p$ $p$ 事先的给定数据的效应理论，他们认为这是一种更直观吸引人的方法^{（Wagenmakers，2007）}，除其他优点外，还排除了有争议的缺点。（公平地说，请参阅“贝叶斯分析的缺点是什么？ ”您还评论引用了可能提供一些不错答案的文章：^{Moyé，2008；Hurlbert & Lombardi，2009。）}

可以说，从字面上看，原假设通常更有可能是错误的，因为原假设是最常见的，从字面上看是零效应的假设。（对于一些方便的反例，请参阅以下答案：“大型数据集不适合假设检验吗？ ”）诸如蝴蝶效应之类的哲学问题威胁着字面意思有效性任何此类假设；因此，对于某些非零效应的替代假设，零值最普遍地用作比较的基础。在收集到数据后，这种替代假设可能比 null 更合理，如果 null 为真，那将是不可能的。因此，研究人员通常从反对零的证据中推断出对替代假设的支持，但这不是p 值直接量化^{（Wagenmakers，2007 年）}。

正如你所怀疑的，统计学意义是一个函数样本量，以及效果大小和一致性。（请参阅@gung 对最近问题的回答，“如果均值差几乎为 0，t 检验如何具有统计显着性？ ”）我们经常打算对我们的数据提出的问题是，“ xon的影响是y什么？ " 由于各种原因（包括 IMO、误解和其他不足的统计教育计划，尤其是由非统计学家教授的），我们经常发现自己在问一个松散相关的问题，“随机抽样数据的概率是多少？来自x不影响的人群y？” 这分别是效应量估计和显着性检验之间的本质区别。一个 $p$ value 只直接回答了后一个问题，但一些专业人士（@rpierce 可能会给你一个比我更好的列表；请原谅我把你拖入这个问题！）认为研究人员将误读为对前一个问题的答案太频繁; 恐怕我必须同意。 $p$

的含义，它是从 null 为真的总体中随机抽样数据的概率，但它表现出与 null 所描述的关系或差异不同的关系或差异从字面上看，至少与您的数据一样宽且一致……<吸入>……介于 5–95% 之间。有人肯定会争辩说这是样本量的结果，因为增加样本量可以提高检测小而不一致的效应量并将它们与置信度超过 5% 的零效应区分开来的能力。然而，小的和不一致的影响大小在实用上可能或可能不在统计上显着 $.05<p<.95$ $\ne$ – 古德曼（2008）的另一个脏打）；这更多地取决于数据的含义，统计意义仅在有限的范围内涉及。请参阅我对上述问题的回答。

如果... p > 0.95，将结果称为绝对错误（而不是简单地不受支持）不应该是正确的吗？

由于数据通常应该代表经验上的事实观察，它们不应该是错误的；理想情况下，只有对它们的推论才会面临这种风险。（当然也会发生测量错误，但是这个问题在某种程度上超出了这个答案的范围，所以除了在这里提到它之外，我将不理会它。）总是存在一些风险，即对 null 不太有用做出误报推断比备择假设，至少除非推断者知道零是真的。只有在相当难以想象的知识情况下，零值实际上是真的，支持替代假设的推论才会绝对是错误的……至少，就我目前所能想象的而言。

显然，广泛的使用或约定并不是认知或推理有效性的最佳权威。即使是已发布的资源也是错误的；例如，参见p 值定义中的谬误。您的参考资料^{（Hurlbert & Lombardi, 2009）}也对这一原则提供了一些有趣的阐述^{（第 322 页）：}

StatSoft (2007) 在他们的网站上吹嘘他们的在线手册“是不列颠百科全书推荐的唯一互联网统计资源”。正如保险杠贴纸上所说，“不信任权威”从未如此重要。[可笑的 URL 转换为超链接文本。]

^{另一个恰当的例子：最近的自然新闻文章（Nuzzo，2014 年）}中的这句话：“P 值，证据强度的通用指数……”参见Wagenmakers 的^{（2007 年，第 787 页）} “问题 3：值不量化统计证据”...但是，@MichaelLew ^（^{Lew，2013 年}^）以您可能会觉得有用的方式不同意：他使用值来索引似然函数。然而，尽管这些已发表的资料相互矛盾，但至少有一个是错的！（在某种程度上，我认为......）当然，这并不像“不可信”本身那么糟糕。 $p$ $p$ _{我希望我可以通过像我一样标记他来诱使迈克尔在这里插话（但我不确定用户标签在编辑时会发送通知——我认为你在 OP 中没有这样做）。他可能是唯一能拯救努佐的人——甚至是大自然本身！帮助我们欧比旺！（如果我在这里的回答表明我仍然无法理解你的工作的含义，请原谅我，我相信无论如何我都有......）}顺便说一句，Nuzzo 还提供了一些有趣的自卫和反驳Wagenmaakers 的“问题 3”：参见 Nuzzo 的“可能原因”图和支持引用^{（Goodman，2001 年，1992 年；Gorroochurn，Hodge，Heiman，Durner 和 Greenberg，2007 年）}。这些可能包含你的答案

回复：你的多项选择题，我选择d。您可能在这里误解了一些概念，但如果是这样，您肯定并不孤单，我将把判断留给您，因为只有您知道您真正相信什么。误解意味着一定程度的确定性，而提出问题则意味着相反，不幸的是，在不确定时提出质疑的冲动是非常值得称赞的，而且远非无处不在。人性的这个问题使我们的公约的不正确性令人遗憾地缺乏无害，并且值得抱怨，例如这里提到的那些。（部分感谢您！）但是，您的建议也不完全正确。

我参与值相关的问题的一些有趣讨论出现在这个问题中： Accommodating entrenched views of p-values。值的替代方案很有用。预先警告：我自己还没有进入这个特殊的兔子洞的底部，但我至少可以告诉你它很深。我自己仍在学习它（否则我怀疑我会从更贝叶斯的角度写作[编辑]：或者也许是 NFSA 的角度！^{Hurlbert & Lombardi，2009}^） $p$ $p$ ，我充其量是一个软弱的权威，我欢迎其他人可能对我在这里所说的内容提供任何更正或详细说明。我能得出的结论是，可能有一个数学上正确的答案，而且很可能大多数人都弄错了。正确的答案当然来之不易，正如以下参考资料所示......

PS根据要求（有点......我承认我真的只是在解决这个问题而不是在工作中），这个问题是一个更好的参考，有时的均匀分布给定null：“为什么p值是一致的在零假设下分布？ ”特别有趣的是@whuber 的评论，它引发了一类例外。与整个讨论一样，我并没有 100% 地遵循这些论点，更不用说它们的含义了，所以我不确定分布均匀性的那些问题实际上是例外的。进一步造成深层次的统计混乱，恐怕…… $p$ $p$

参考

_{-古德曼，SN（1992）。对复制、P值和证据的评论。医学统计，11 (7), 875–879。

-古德曼，SN (2001)。P值和贝叶斯：一个适度的建议。流行病学, 12 (3), 295–297。取自http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf。

- Goodman, S. (2008)。肮脏的一打：十二个P值误解。血液学研讨会，45 (3), 135–140。取自http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf。

- Gorroochern, P., Hodge, SE, Heiman, GA, Durner, M. 和 Greenberg, DA (2007)。关联研究的不可复制：复制的“伪失败”？医学遗传学，9 (6), 325–331。取自http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html。

- Hurlbert, SH 和 Lombardi, CM (2009)。Neyman-Pearson 决策理论框架的最终崩溃和新费舍尔主义的兴起。动物年鉴 Fennici, 46 (5), 311–349。取自http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf。

- 刘，MJ（2013 年）。To P or not to P：关于 P 值的证据性质及其在科学推理中的位置。arXiv:1311.0081 [stat.ME]。从...获得http://arxiv.org/abs/1311.0081。

- 洛杉矶莫耶（2008 年）。临床试验中的贝叶斯：在开关处睡着了。医学统计，27 (4), 469–482。

- Nuzzo, R.（2014 年 2 月 12 日）。科学方法：统计误差。自然新闻，506 (7487)。取自http://www.nature.com/news/scientific-method-statistical-errors-1.14700。

- Wagenmakers，EJ（2007 年）。p值普遍问题的实用解决方案。心理公报与评论，14 (5), 779–804。取自http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf。}

其它你可能感兴趣的问题

上一篇k=1 的 k-NN 是否总是意味着过度拟合？下一篇奇异值分解的意义何在？