也许这是一个非常基本的问题,但我还没有找到这个简单问题的简单解决方案:
我想比较一个非正态分布的连续变量的两个样本(比如 X 和 Y),并测试 X 和 Y 是否显着不同。X的样本量为N=81,Y为N=5110,因此它们非常不平衡。我的第一次尝试是使用 Mann-Whitney(即 Wilcoxon 符号秩检验)。但是,我对样本量的巨大差异感到困扰。
我认为某种随机化或引导方法是一个不错的选择,但我不确定我的方法是否有意义。我的想法是从 Y 和 X 中获取 1000 个大小为 81 的随机样本,然后使用 Mann-Whitney 比较两个分布。经验p 值将是p 值< 0.05的测试比例。我“R”,我已经实现如下:
X = data1 # sample size 81
Y = data2 # sample size 5510
R = 1000
alpha = numeric(R)
for(i in 1:R) {
group1 = sample(X, replace=TRUE)
group2 = sample(Y, size=81, replace=TRUE)
alpha[i] = wilcox.test(group1, group2)$p.value
}
经验p 值将是p 值< 0.05 的比例:
mean(alpha < 0.05)
这种方法有意义吗?我怎样才能正确地进行这个假设检验?