当一组只有 1 个观察值时,将不平衡组与 ANOVA/Kruskal-Wallis 进行比较

机器算法验证 假设检验 方差分析 群体差异 小样本 克鲁斯卡尔-沃利斯测试
2022-03-19 14:08:02

我想比较 5 个健康状态组的连续变量,但其中一个组只有 1 个观察值。ANOVA/Kruskal-Wallis 是否有效?对于只有 1 个观察值的组,我能做些什么?

跨组的连续变量的箱线图如下所示: 在此处输入图像描述

组大小为:

A: 12
B: 8
C: 9
D: 7
E: 1

背景信息:我从事生物统计学工作,我的数据集相当小,有些结果在生物学中很少见。收集样本也依赖于患者并且是一个昂贵的过程,因此获取更大的样本不是一个可行的解决方案。

编辑:我目前所做的是在我的分析中省略只有一个观察的组,但是我不确定它的有效性。

1个回答

如果您做出等方差假设,您可以在单向方差分析类型设计中执行推理,其中一组只有一个观察值。如果您不假设等方差(或其他一些信息方差结构),那么您将没有关于单例组中的方差的信息。

并非所有软件包都会在执行 ANOVA 时处理它,这取决于它们的设置方式,但这并不意味着它不能完成。[我在现场的另一个答案中举了一个用单例进行 t 检验的例子。]

这是 R 中的一个示例,其中包含和省略了单向 ANOVA 和 Kruskal-Wallis 的单例组:

x=rnorm(100)
g=as.factor(rep(1:5,c(40,30,20,9,1)))
anova(lm(x~g))
Analysis of Variance Table

Response: x
          Df Sum Sq Mean Sq F value Pr(>F)
g          4  6.554 1.63839  1.6588  0.166
Residuals 95 93.830 0.98769               

anova(lm(x[-100]~g[-100]))
Analysis of Variance Table

Response: x[-100]
          Df Sum Sq Mean Sq F value Pr(>F)
g[-100]    3  3.498 1.16608  1.1806 0.3213
Residuals 95 93.830 0.98769               

kruskal.test(x~g)

        Kruskal-Wallis rank sum test

data:  x by g
Kruskal-Wallis chi-squared = 5.9232, df = 4, p-value = 0.205

kruskal.test(x[-100]~g[-100])

        Kruskal-Wallis rank sum test

data:  x[-100] by g[-100]
Kruskal-Wallis chi-squared = 3.1894, df = 3, p-value = 0.3633