机器算法验证 - I 类错误率是等于 alpha 还是至多是 alpha？ - 吾爱随笔录

机器算法验证假设检验 p 值类型 i 和 ii 错误

2022-03-03 19:25:17

当 p 值计算正确时，此检验保证 I 类错误率最多为 $\alpha$ .

$Pr (R e j e c t H | H) = Pr (p \leq α | H) = α$ $\Pr(\mathrm{Reject}\; H|H) = \Pr(p \leq \alpha|H) = \alpha$

假设“类型 1 错误率”= $\Pr(\mathrm{Reject}\; H|H)$ 这表明类型 1 错误率是 $\alpha$ 而不是'最多 $\alpha$ '。否则，公式将显示为：

Pr (R e j e c t H | H) \leq α

$\Pr(\mathrm{Reject}\; H|H) \leq \alpha$

我的误解在哪里？

2个回答

当“零假设”包括一种以上的自然状态时，实际的误报率 (FPR) 可能会随该状态而变化。我们所能做的就是保证对 FPR 的限制，无论这种自然状态可能是什么——但我们不能总是保证 FPR 实际上等于 $\alpha$ .

（还有其他原因导致 FPR 实际上可能不等于其目标值 $\alpha$ ，例如当检验统计量是离散的时。这些情况通常可以通过使用随机决策程序来解决。因此，它们没有提供对该问题的任何基本见解。）

考虑经典的单尾检验，其中统计量 $X$ 假设具有未知均值的正态分布 $\mu$ 和（为简单起见）已知标准偏差 $\sigma$ . $\mu$ 是要比较的 $0$ . 原假设是 $H_0:\mu \ge 0$ 而备择假设是 $H_A:\mu \lt 0$ . 因此，拒绝区域的形式为

R (α) = (- \infty, Z_{α}]

$\mathcal{R}(\alpha) = (-\infty, Z_\alpha]$

在哪里 $Z_\alpha$ 选择使得在该区域观察统计数据的机会最多为 $\alpha$ ：

\begin{matrix} (1) & α = sup (Pr (X \in R (α))) . \end{matrix}

$\alpha =\sup\left(\Pr(X \in \mathcal{R}(\alpha))\right)\tag{1}.$

在假设下，这个概率由正态分布函数给出 $\Phi$ ：

\begin{matrix} (2) & Pr (X \in R (α)) = Φ (\frac{Z_{α} - μ}{σ}) . \end{matrix}

$\Pr(X \in \mathcal{R}(\alpha)) = \Phi\left(\frac{Z_\alpha-\mu}{\sigma}\right)\tag{2}.$

这个概率取决于未知值 $\mu$ . 因此我们不能保证它实际上等于 $\alpha$ . 确实，对于大 $\mu$ , $(2)$ 几乎为零。但是，我们必须覆盖我们所有的基地，并保证只要 $\mu$ 与原假设一致，误报率 $(1)$ 不会超过 $\alpha$ .

这是一个偷偷摸摸的问题。如果您有连续的数据，并且您对它们进行了适当的处理，那么 $\Pr(p \leq \alpha|H_0) = \alpha$ . 但是，当您的数据是离散的时，可能无法 $p = \alpha$ . 考虑硬币是否公平的二项式数据，抛硬币 5 次，可能的单边 p 值是：

> pbinom(0:5, size=5, prob=.5)
[1] 0.03125 0.18750 0.50000 0.81250 0.96875 1.00000

仅有的 $0$ head 可能会产生 I 类错误，与此相关的概率是 $\approx 0.03$ . 那么第一类错误率将被保持为“至多 $α$ "，但不等于 $\alpha$ .

另一方面，有（无效的）分析策略导致 I 类错误率大于 $\alpha$ ，即使当 $p<\alpha$ （例如，逐步选择例程）。

其它你可能感兴趣的问题