误解了 P 值?

机器算法验证 假设检验 p 值
2022-01-31 09:24:13

因此,我一直在阅读很多有关如何正确解释 P 值的内容,并且从我所读到的内容中,p 值没有说明原假设为真或假的概率。但是,当阅读以下声明时:

p - 值表示犯 I 类错误或拒绝原假设为真时的概率。p 值越小,您错误地拒绝原假设的概率就越小。

编辑:然后 5 分钟后我读到:

对 P 值的错误解释很常见。最常见的错误是将 P 值解释为通过拒绝真正的零假设(I 类错误)而犯错误的概率。

这让我很困惑。哪一个是正确的?谁能解释一下如何正确解释 p 值以及它如何正确地与犯 I 型错误的概率相关联?

4个回答

由于您的评论,我将制作两个单独的部分:

p 值

在统计假设检验中,您可以找到替代假设的“统计证据”;正如我在如果我们未能拒绝零假设会发生什么中解释的那样?,它类似于数学中的“反证法”。

因此,如果我们想找到“统计证据”,那么我们假设相反,我们表示H0我们试图证明的东西,我们称之为H1. 在此之后,我们抽取一个样本,并从样本中计算所谓的检验统计量(例如 t 检验中的 t 值)。

然后,正如我们假设H0是真的,我们的样本是从分布中随机抽取的H0,我们可以计算观察值超过或等于从我们的(随机)样本中得出的值的概率。这个概率称为 p 值。

如果这个值“足够小”,即小于我们选择的显着性水平,那么我们拒绝H0我们认为H1是“统计证明的”。

在这种方式中,有几件事很重要:

  • 我们在以下假设下推导出概率H0是真的
  • 我们从假设的分布中抽取了一个随机样本H0
  • 我们决定找到证据H1如果从随机样本得出的检验统计量被超过的概率很低。所以超过它不是不可能的,而H0是真的,在这些情况下,我们会犯第一类错误。

那么什么是 I 类错误:当样本随机抽取时,会产生 I 类错误H0, 得出的结论是H0是假的,而实际上它是真的。

请注意,这意味着p 值不是 I 类错误的概率实际上,I 类错误是测试的错误决定,只能通过将 p 值与所选显着性水平进行比较来做出决定,仅凭 p 值无法做出决定,只有在比较之后做出决定的所选显着性水平的 p 值,只要不做出决定,甚至没有定义 I 类错误。

那么 p 值是多少?潜在的错误拒绝H0是因为我们在下面抽取了一个随机样本H0,所以可能是我们通过抽取样本“运气不好”,而这种“运气不好”会导致错误的拒绝H0. 所以 p 值(尽管这并不完全正确)更像是抽取“坏样本”的概率。p值的正确解释是它是检验统计量超过或等于从随机抽取的样本中得出的检验统计量值的概率H0


错误发现率 (FDR)

如上所述,每次拒绝原假设时,人们都认为这是“统计证据”H1. 所以我们发现了新的科学知识,所以叫做发现上面还解释了我们可以做出错误的发现(即错误地拒绝H0) 当我们犯了 I 类错误时。在那种情况下,我们对科学真理有错误的信念。我们只想发现真正真实的事物,因此人们试图将错误的发现保持在最低限度,即人们将控制第一类错误。不难看出,I 类错误的概率是选择的显着性水平α. 因此,为了控制 I 类错误,需要修复一个α-反映你愿意接受“虚假证据”的程度。

直观地说,这意味着如果我们抽取大量样本,并对每个样本进行测试,那么只有一小部分α这些测试将导致错误的结论。重要的是要注意我们正在“对许多样本进行平均”所以同样的测试,很多样品。

如果我们使用相同的样本进行许多不同的测试,那么我们就会出现多重测试错误(请参阅我在Family-wise error boundary 上的分析:在独立问题的不同研究中重复使用数据集会导致多重测试问题吗?)。在这种情况下,可以控制α使用控制全族错误率 (FWER)的技术进行膨胀,例如 Bonferroni 校正。

与 FWER 不同的方法是控制错误发现率 (FDR)在这种情况下,一个控制所有发现 (D) 中错误发现 (FD) 的数量,因此一个控制FDD, D 是被拒绝的次数H0.

因此,第一类错误概率与对许多不同样本执行相同的测试有关。对于大量样本,I 类错误概率将收敛于导致错误拒绝的样本数除以抽取的样本总数

FDR与对同一样本的许多测试有关,对于大量测试,它将收敛于发生 I 类错误的测试数量(即错误发现的数量)除以拒绝的总数量H0(即发现的总数)

请注意,比较上面的两段:

  1. 上下文不同;一项测试和许多样品与许多测试和一份样品。
  2. 计算第一类错误概率的分母明显不同于计算 FDR 的分母。分子在某种程度上相似,但具有不同的上下文。

FDR 告诉您,如果您对同一个样本进行多次测试并发现 1000 个发现(即拒绝H0) 那么 FDR 为 0.38,您将拥有0.38×1000错误的发现。

第一种说法严格来说并不正确。

来自一篇关于重要性误解的漂亮论文:(http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf

“[此陈述] 可能看起来类似于类型 I 错误的定义(即拒绝 H0 的概率,尽管它实际上是正确的),但实际上拒绝了 H0,当且仅当该决定是错误的H0 是真的。因此,“你做出错误决定”的概率是 p(H0),而这个概率......不能通过零假设显着性检验得出。"

更简单地说,为了评估您错误拒绝 H0 的概率,您需要 H0 为真的概率,而您使用此测试根本无法获得该概率。

p 值的正确解释是假设原假设为真,则结果的条件概率至少与观察值一样有助于备择假设(至少为“极端”)不正确的解释通常涉及边际概率或条件的转换:

p-value=P(At least as extreme as observed outcome|H0)P(Type I error).

p 值允许我们确定是否可以拒绝原假设(或声称的假设)。如果 p 值小于显着性水平 α,则这表示统计上显着的结果,应拒绝原假设。如果 p 值大于显着性水平 α,则不能拒绝原假设。如果您使用表格或使用在线计算器(例如这个p-value 计算器)从检验统计量中查找 p 值,这就是查找 p 值的全部原因。

现在我知道您提到了 I 型和 II 型错误。这实际上与 p 值无关。这与原始数据有关,例如使用的样本量和为数据获得的值。例如,如果样本量太小,可能会导致 I 类错误。