基于排列的 p 值所需的排列数

机器算法验证 假设检验 p 值 置换检验 重采样
2022-03-11 12:06:48

如果我需要计算基于排列的p-具有显着性水平的值α,我需要多少排列?

来自文章“研究分类器性能的排列测试”,第 5 页:

在实践中,上限1/(2k)通常用于确定达到所需测试精度所需的样本数量。

... 在哪里k是排列的数量。

如何从此公式计算所需的排列数?

1个回答

我承认,这一段可能令人困惑。

在执行置换检验时,您确实估计了一个 p 值。问题是,p 值的估计本身有一个误差,计算为p(1p)k. 如果误差太大,则 p 值不可靠。

那么需要多少个排列 k 才能得到一个可靠的估计呢?

首先定义您的最大允许误差,即精度。让它成为P. 然后估计的 p 值应在区间内[p3P,p+3P](因为 p近似正态分布

使用上限

该论文的引用段落建议使用12k作为误差的上限估计,而不是p(1p)k. 这对应于 p=0.5 的未知 p 值(对于固定 k,在所有 ps 中误差最大)。

所以:你想知道k在哪里12kP.

<=>14P2k

但由于引用的公式代表一个上限,因此这种方法非常粗糙。

在显着性水平上使用误差

另一种方法使用所需的显着性水平α作为 p 来计算所需的精度。这是正确的,因为如果我们接近决策阈值(即显着性水平),估计 p 的误差更重要。

在这种情况下,人们想知道 k 在哪里α(1α)kP.

<=>(α(1α))P2k

请注意,如果真正的未知 p 值明显大于α,那么误差实际上更大,所以 p in[p3P,p+3P]不再持有。

扩展置信区间

这种方法对应于置信区间的中心正好在决策阈值处。为了强制估计 p 的置信区间的上限低于决策阈值(更正确),需要...

lα(1α)kP

<=>(l)2(α(1α))P2k

其中 l 对应(再次参见图形

| l | confidence interval |
| 1 | ~68 % |
| 2 | ~95 % |
| 3 | ~99 % |

示例: 假设所需的精度 P 为 0.005。

然后使用粗略的上限得到k>=10000.

使用 P 在α=0.05并要求得到一个 95% 的置信区间k>=7600.

对于 P = 0.01 在α=0.0195% 的置信区间得到 k>=396。

最后:我强烈建议深入研究蒙特卡罗模拟。维基百科提供了一个开始。