我试图找到一篇文章来解释对所有排列进行详尽抽样的排列测试过程(不是蒙特卡罗方法),但找不到足够具体的资源来帮助我解决下面概述的歧义。例如,维基百科文章(https://en.wikipedia.org/wiki/Resampling_(statistics)#Permutation_tests)说
例如,给定一个组合数据集 (1, 2, 3),其中组 A 的长度为 2,组 B 的长度为 1,为简单起见,我不清楚“所有可能的划分方式”是否意味着 {(1, 2 ), (3)} 和 {(2, 1), (3), ...} 或者如果它们计数 "{(1, 2), (3)}" 和 "{(2, 1), (3 )}" 作为相同的划分。
查看各种代码示例,例如https://rosettacode.org/wiki/Permutation_test上的 Python、R、Julia 等示例,我看到排列测试通常实现如下:
给定两个样本 A 和 B
- 记录测试统计数据(例如,)
- 将样本 A 和 B 合并为一个大样本 AB
- 对于来自 AB 的长度(A)的组合:
3a)计算排列统计量(例如,,其中 A' 是 3 的组合。 B' 是 AB 中不在 A' 中的所有样本)。
3b) 记录排列统计 - 将 p 值计算为 3a) 中的排列统计量比 1 中的检验统计量更极端的比例。除以采样的组合数
但是,我们不应该对排列而不是长度 A 的组合进行采样吗?例如,如下所述(我以粗体突出显示与上一个过程的区别):
给定两个样本 A 和 B
- 记录测试统计数据(例如,)
- 将样本 A 和 B 合并为一个大样本 AB
对于来自 AB 的长度(AB)的排列:3a)计算排列统计量(例如,,其中 A' 是置换 AB 序列中的第一个 len(A) 个样本,B' 是 AB 中的剩余样本
将 p 值计算为 3a) 中的排列统计量比 1 中的检验统计量更极端的比例。除以采样的排列数
或者,为了提供一个简单的数字示例,请考虑以下 2 个示例
a = [1, 3] b = [2]
观察到的差异:obs = |mean(a) - mean(b)| = 2
使用“组合”程序,我们将采样以下内容:
(1, 2), (3) => 差异 0
(1, 3), (2) => 差异 2
(2, 3), (1) => 差异 4
其中,在 3 个案例中的 2 个案例中,我们会观察到与观察到的统计数据相同或更大的差异(即 p=2/3)
现在,使用排列,我们将得到以下结果:
(1, 2), (3) => diff 0
(1, 3), (2) => diff 2
(2, 1), (3) => diff 0
(2, 3), (1) =>差异 4
(3, 1), (2) => 差异 2
(3, 2), (1) => 差异 4
在这里,我们观察到 6 个案例中有 4 个的差异等于或大于观察到的统计量(p=4/6)
有没有人不再了解确切的程序并且手头有可靠的资源?谢谢!
