值与I型错误之间有什么关系pp

机器算法验证 p 值 类型 i 和 ii 错误
2022-03-28 11:12:00

在假设检验中,我们设置了 I 类错误概率的可接受水平,并观察如果原假设为真,样本统计量是否同样可能或不太可能被观察到。在零值下观察到样本分数或更极端的确切概率是值。更一般地说,如果 ,我们会拒绝。αpα>p

我现在想知道以下内容。值似乎给出了错误拒绝真零假设(如果我们决定这样做)的概率的精确估计,这类似于 I 类错误定义。由于我们知道(估计)观察样本分数(或更多极端值)的概率,似乎是最大可接受的 I 类错误,而是精确的。换句话说,它似乎给出了我们仍然可以拒绝空值pαpα

它是否正确?

4个回答

[假设,目前我们不是在谈论复合零假设,因为它将简化讨论​​以坚持更简单的情况。可以在复合案例中提出类似的观点,但由此产生的额外讨论可能证明不太具有启发性]

I 类错误的概率(如果假设成立)由给出,是重复抽样概念下的概率。如果你在 null 为 true 时多次收集数据,从长远来看,你会拒绝这些时间实际上,它会在您采样之前告诉您 I 类错误的概率。αα

p 值是特定于实例且有条件的。它不会告诉您 I 类错误的概率,无论是在您采样之前(它不能告诉您,因为它取决于样本),还是之后:

如果那么你犯 I 类错误的机会为零。pα

如果 null 为真且则您犯 I 类错误的机会为 1。p<α

再看一下正在讨论的两件事:

  • P(I 类错误) = P(拒绝 H |H真)00

  • p-value = P(样本结果至少与观察到的样本值一样极端|H true, sample)0

它们是不同的东西。


编辑 - 从评论看来,有必要详细说明您的第二段:

p 值似乎给出了错误拒绝真零假设的概率的准确估计

并非如此,如上所述。(我认为这足以使问题的其余部分变得毫无意义。)

α 似乎是最大可接受的 I 类错误,

实际上,是的(当然,我们可能会选择一个低于我们准备接受的绝对最大速率的α

而 p 是精确的。

同样,不是这样;在建议的意义上,它不等同于正如我所建议的,条件概率中的分子和分母都不同于的分子和分母。αα

换句话说,它似乎给出了我们仍然可以拒绝零的最小 α 水平。

尽管我早先提出了警告,但有一种直接的(不一定特别有趣)的感觉是正确的。请注意,在测试之前选择了,因此有必要从我们通常的情况转移。αp

如果我们假设以下反事实:

  • 我们有一假设检验器,每个检验器都在自己的显着性水平上运行

  • 他们每个人都呈现相同的数据集

那么p值就是那些拒绝和接受的测试者之间的分界线。从这个意义上说,p 值是测试人员仍然可以拒绝空值的最小 α 水平。但在实际测试情况下,是固定的,而不是可变的,我们处理的概率是 0 或 1(在某种意义上类似于人们所说的“置信区间包含参数的概率” )。α

我们的概率陈述是指重复抽样;如果我们假设一个测试人员的集合,每个人都有自己的,并且只考虑一个数据集来测试一个,那么不清楚是那个场景中任何事情的概率 - 相反,如果我们有一个集合代表一些东西测试人员和重复抽样,其中 null 为真 - 他们每个人都会拒绝样本中他们的 null 的一部分,而将代表每个样本的某些东西。ααααp

你的解释似乎是正确的。我要补充的警告是,在进行假设检验之前做出的先验决定。因此,如果发现检验统计量的p值为 0.00021,然后报告您的检验的为 0.00021,这并不是一个好的发现;这将使p (错误地) 成为同义词。ααα

值不是“错误拒绝真实零假设的概率的精确估计” 这个概率是通过构建一个级测试来固定的。相反,它是对实验的其他实现比实际实现更极端的概率的估计。仅当当前实现属于顶级极端实现时,我们才拒绝原假设。pαα

但是您可以将值想象为最小值是正确的,这样,如果,则测试将在当前数据的显着性与无显着性的边界上。pαα

也许不同的解释会有所帮助:我们说我们拒绝原假设,如果当前结果可以被证明属于可能结果的极端,前提是原假设成立。值只是表明我们的结果实际上有多极端。100α%p

您以两种平行的方式混淆了概率和p

长期概率,如 I 类错误率,不应被视为与连接到单个事件(收集的数据)的条件概率直接可比。在这种情况下,后者是由空模型生成的值与当前数据相比极端或更多的数据的概率。而且,不是错误拒绝空值的概率。pp

想象一系列实验,其中空值必须为真(例如比较两个硬币的偏差)。进一步想象在运行实验之前较小的会不会导致您犯 I 型错误的可能性降低?任何一次实验的结果都会影响 I 型错误吗?αα

我认为这种混淆经常出现,因为我们在对样本进行测试时估计了总体参数。所以均值是对的估计,标准差是对的估计,但根本不是总体参数。如果效果为 0,这只是当前数据或更多极端值的概率。如果您确定效果不为 0,则它没有任何意义。μσp