机器算法验证 - p 值、显着性水平和检验大小之间的差异 - 吾爱随笔录

p 值、显着性水平和检验大小之间的差异

机器算法验证统计学意义 p 值

2022-04-09 05:07:52

谁能告诉我这些数量之间的差异。据我所知， p 值是检验用观察到的数据拒绝原假设的最小显着性水平。 显着性水平是当原假设为真时，在参数的所有可能值中大于或等于检验的幂函数的数字。 检验的大小是当原假设为真时，该参数的所有可能值中检验的幂函数的最大值。所以p 值似乎是测试的大小，因为它们都是显着性水平的最小值。显着水平似乎是测试的大小，因为它们都是大于或等于幂函数的数字。根据上面的推论，这三个量指的是同一个东西，如果我错了，谁能告诉我它们之间的区别或纠正我？

1个回答

级别和大小

维基百科有以下内容：

据说测试具有显着性水平 $\alpha$ 如果它的大小小于或等于 $\alpha$ .

我同意这一点。它还说：

测试的规模是 [...] 犯第一类错误的概率。

这并不总是正确的。（它在文章的下方更正了它。）

在复合零假设的情况下，大小是零下所有可能性的拒绝率的上限值。

粗略地说，它是 null 下的最大拒绝率。

请注意，在一般情况下（考虑潜在的复合空值和可能的离散测试统计量）我们可能无法实际获得某些预先指定的拒绝率 $\alpha$

例如，考虑一个 n=18 的双尾符号测试——你可以在 3.1% 或 9.6% 的空值下获得拒绝率，但除非你使用随机测试等设备，否则你实际上无法获得 5%，或者
考虑到实际的 I 类错误率可能取决于我们碰巧位于 null 中的哪个位置。例如，使用单边 t 检验，其中 $H_0: \mu\leq 0$ , 如果真 $\mu=-0.5$ 类型 $I$ 错误率通常会低于如果 $\mu=-0.03$ .

所以现在考虑我想要一个 5% 的显着性水平和一个尾符号测试 $n=18$ 在复合空下 $H_0: \tilde{\mu}\leq 0$ 对比 $H_1:\tilde{\mu}> 0$ . 现在如果 $\tilde{\mu}$ 实际上是 $0$ 那么我的第一类错误率刚刚超过 4.8%。另一方面，如果 $\tilde{\mu}$ 是 $<0$ 那么我的第一类错误率将小于 4.8%；假设我们处于空值下的特定情况（取决于分布的具体情况），并且我们的第一类错误率为 3.2%。我们将有一个显着性水平为 5%、大小为 4.81% 和实际 I 类错误率为 3.2% 的测试（尽管实际上我们无法计算出最后一个，因为我们也不知道总体形状或其中位数）。

特别注意，大小和级别都与样本无关——如果我们抽取另一个相同大小（和其他相关特征）的随机样本，我们不应该期望大小或级别会改变。

p值

如果原假设为真，p 值是获得至少与我们从样本中观察到的统计量一样极端的检验统计量的概率。

因此，与其他两件事相比，p 值是样本的函数。新样本，新 p 值。

它可能小于或大于第一类错误率、大小或显着性水平。

其它你可能感兴趣的问题

上一篇拉普拉斯近似和变分贝叶斯方法之间有什么关系？下一篇用于检测异常值的高斯混合