由于您的评论,我将制作两个单独的部分:
p 值
在统计假设检验中,您可以找到替代假设的“统计证据”;正如我在如果我们未能拒绝零假设会发生什么中解释的那样?,它类似于数学中的“反证法”。
因此,如果我们想找到“统计证据”,那么我们假设相反,我们表示H0我们试图证明的东西,我们称之为H1. 在此之后,我们抽取一个样本,并从样本中计算所谓的检验统计量(例如 t 检验中的 t 值)。
然后,正如我们假设H0是真的,我们的样本是从分布中随机抽取的H0,我们可以计算观察值超过或等于从我们的(随机)样本中得出的值的概率。这个概率称为 p 值。
如果这个值“足够小”,即小于我们选择的显着性水平,那么我们拒绝H0我们认为H1是“统计证明的”。
在这种方式中,有几件事很重要:
- 我们在以下假设下推导出概率H0是真的
- 我们从假设的分布中抽取了一个随机样本H0
- 我们决定找到证据H1如果从随机样本得出的检验统计量被超过的概率很低。所以超过它不是不可能的,而H0是真的,在这些情况下,我们会犯第一类错误。
那么什么是 I 类错误:当样本随机抽取时,会产生 I 类错误H0, 得出的结论是H0是假的,而实际上它是真的。
请注意,这意味着p 值不是 I 类错误的概率。实际上,I 类错误是测试的错误决定,只能通过将 p 值与所选显着性水平进行比较来做出决定,仅凭 p 值无法做出决定,只有在比较之后做出决定的所选显着性水平的 p 值,只要不做出决定,甚至没有定义 I 类错误。
那么 p 值是多少?潜在的错误拒绝H0是因为我们在下面抽取了一个随机样本H0,所以可能是我们通过抽取样本“运气不好”,而这种“运气不好”会导致错误的拒绝H0. 所以 p 值(尽管这并不完全正确)更像是抽取“坏样本”的概率。p值的正确解释是它是检验统计量超过或等于从随机抽取的样本中得出的检验统计量值的概率H0
错误发现率 (FDR)
如上所述,每次拒绝原假设时,人们都认为这是“统计证据”H1. 所以我们发现了新的科学知识,所以叫做发现。上面还解释了我们可以做出错误的发现(即错误地拒绝H0) 当我们犯了 I 类错误时。在那种情况下,我们对科学真理有错误的信念。我们只想发现真正真实的事物,因此人们试图将错误的发现保持在最低限度,即人们将控制第一类错误。不难看出,I 类错误的概率是选择的显着性水平α. 因此,为了控制 I 类错误,需要修复一个α-反映你愿意接受“虚假证据”的程度。
直观地说,这意味着如果我们抽取大量样本,并对每个样本进行测试,那么只有一小部分α这些测试将导致错误的结论。重要的是要注意我们正在“对许多样本进行平均”;所以同样的测试,很多样品。
如果我们使用相同的样本进行许多不同的测试,那么我们就会出现多重测试错误(请参阅我在Family-wise error boundary 上的分析:在独立问题的不同研究中重复使用数据集会导致多重测试问题吗?)。在这种情况下,可以控制α使用控制全族错误率 (FWER)的技术进行膨胀,例如 Bonferroni 校正。
与 FWER 不同的方法是控制错误发现率 (FDR)。在这种情况下,一个控制所有发现 (D) 中错误发现 (FD) 的数量,因此一个控制FDD, D 是被拒绝的次数H0.
因此,第一类错误概率与对许多不同样本执行相同的测试有关。对于大量样本,I 类错误概率将收敛于导致错误拒绝的样本数除以抽取的样本总数。
FDR与对同一样本的许多测试有关,对于大量测试,它将收敛于发生 I 类错误的测试数量(即错误发现的数量)除以拒绝的总数量H0(即发现的总数)。
请注意,比较上面的两段:
- 上下文不同;一项测试和许多样品与许多测试和一份样品。
- 计算第一类错误概率的分母明显不同于计算 FDR 的分母。分子在某种程度上相似,但具有不同的上下文。
FDR 告诉您,如果您对同一个样本进行多次测试并发现 1000 个发现(即拒绝H0) 那么 FDR 为 0.38,您将拥有0.38×1000错误的发现。