置换检验假设在原假设下响应/观察的可交换性。
在哪些实际情况下明显违反了这一点?什么时候没有问题?
编辑/附加问题以免被视为重复:如果我们在额外的块结构(例如患者)内置换并总结跨块的测试统计数据,我们只需要块内的可交换性,对吗?
PS:我不是在寻找测试来验证这种对称性条件,因为它是零条件下的条件,而不是观察到的数据......
置换检验假设在原假设下响应/观察的可交换性。
在哪些实际情况下明显违反了这一点?什么时候没有问题?
编辑/附加问题以免被视为重复:如果我们在额外的块结构(例如患者)内置换并总结跨块的测试统计数据,我们只需要块内的可交换性,对吗?
PS:我不是在寻找测试来验证这种对称性条件,因为它是零条件下的条件,而不是观察到的数据......
当我们测试两组的均值是否相等时,会发生可交换性不成立的一种情况,但怀疑方差可能不相等。
具体来说,让我们看一下以下情况:
x1
是一个大小为的样本,来自和的正常人群,并且
的正常人群的大小为和x2
不适当的合并 t 检验。假设我们尝试使用 vs那么在级别 远大于 如 R 中的以下模拟所示。一个巨大的“错误发现”率。合并检验假设这两个样本来自方差相等的总体。
set.seed(2020)
pv = replicate(10^5, t.test(rnorm(10,100,20),
rnorm(50,100,4), var.eq=T)$p.val)
mean(pv <= .05)
[1] 0.35981
Welch t 检验,不假设方差相等。这种方差不等的情况验证了许多统计学家对韦尔奇双样本 t 检验的偏好,该检验不假设两个总体的方差相等。Welch 检验(预期具有非常接近
set.seed(2020)
pv = replicate(10^5, t.test(rnorm(10,100,20),
rnorm(50,100,4))$p.val)
mean(pv <= .05)
[1] 0.05056
使用不可交换样品的有缺陷的排列测试。由于异方差性导致缺乏可交换性,使用样本均值差异作为度量的置换检验无法“治愈”。
set.seed(620)
m = 10^5; pv = numeric(m)
for(i in 1:m) {
x1 = rnorm(10, 100, 20); x2 = rnorm(50, 100, 5)
x = c(x1, x2)
d.obs = mean(x[1:10]) - mean(x[11:60])
for(j in 1:2000) {
x.prm = sample(x)
d.prm[j] = mean(x.prm[1:10]-x.prm[11:60]) }
pv[i] = mean(abs(d.prm) >= abs(d.obs))
}
mean(pv <= .05)
[1] 0.3634
因此,置换检验的拒绝率(以均值作为度量标准和预期的与合并 t 检验一样高。
注意:使用 Welch t 统计量作为度量的置换检验将具有不等方差的样本视为可交换样本(即使数据可能不正常)。它的显着性水平基本上是正确的。
有很多很多情况下,序列中的值的可交换性不成立。一种一般情况是,当您具有自相关的时间序列值时,因此时间上彼此接近的值在统计上是相关的。例如,如果我们生成一个随机游走,则随机游走中的值是不可交换的,通过将随机游走图与该随机游走的随机排列图进行比较,这一点将非常明显。
#Generate and plot a one-dimensional random walk
set.seed(1);
n <- 10000;
MOVES <- sample(c(-1, 1), size = n, replace = TRUE);
WALK <- cumsum(MOVES);
plot(WALK, type = 'p',
main = 'Plot of a Random Walk',
xlab = 'Time', ylab = 'Value');
#Plot a random permutation of the random walk
PERM <- sample(WALK, size = n, replace = FALSE);
plot(PERM, type = 'p',
main = 'Plot of a Randomly Permuted Random Walk',
xlab = 'Time', ylab = 'Value');
我们可以从这些图中看到,随机排列打乱了点的顺序,因此时间上彼此接近的值不再彼此接近。任何适度合理的运行测试都会很容易地检测到第一个图包含一个不可交换的值向量。