Kruskal-Wallis 检验:假设检验和结果解释

机器算法验证 非参数 解释 异方差 假设 克鲁斯卡尔-沃利斯测试
2022-03-16 05:40:59

influentianl points网站上有关于 Kruskal-Wallis (KW) 测试的一章,并且有一些引述我不确定我是否理解正确:

引用 1:

一些作者明确指出不存在分布假设,另一些作者则认为适用方差同质性假设 [...]
如果您希望比较中位数或均值,那么 Kruskal-Wallis 检验还假设每个组中的观察结果是相同且独立的分布在不同的位置。如果您可以接受关于一种分布优于另一种分布的推断,那么确实没有分布假设。
[章节链接]

引用 2:

...异质方差将使结果的解释更加复杂...
[链接到章节]

我的问题:

  1. 例如,我分析chickwts了包含在基础R软件中的数据集(下面我包含了数据的箱线图),比如说,它满足了所有必需的假设。如果我将 KW 检验作为中位数检验并且如果我将其作为随机优势检验来运行,那么(从生物学家的角度来看)对 Kruskal-Wallis 检验结果的解释如何变化在这两种情况下,我可以从数据中得出什么结论?
  2. 从引用 2 我暗示,我应该进行 Levene's/Brown-Forsythe 检验来检查异方差性。我对吗?如果是,Levene 检验的结果如何影响 Kruskal-Wallis 检验的解释?
  3. 我应该进行其他统计检验(例如,Kolmogorov-Smirnov 检验)还是制作特殊类型的图(例如,每对组的 QQ 图)来检查每个组中的数据分布是否具有大致相同的形状?

数据集:

data(chickwts)
boxplot(weight~feed, data = chickwts, las = 3)

在此处输入图像描述

2个回答

KW 检验(也是 Mann-Whitney U 检验)本质上始终是对随机优势的检验。这意味着它正在测试是否存在至少一个组,如果您从每个组中随机抽取一个值,那么您通常会从中获得比其他组更大(更小)的值。

人们认为这意味着一个中值或平均值必须大于另一个,但这不一定是正确的。如果分布的形状和方差相同(即,一组的分布相对于另一组的分布只是向上或向下移动),则随机优势意味着更大的均值和中位数(以及更大的第三四分位数、第五百分位数等) .)。但是,如果分布的形状/方差不同,则不一定如此。有关这些主题的进一步讨论并查看方法转换的示例,请在此处查看我的答案:Wilcoxon-Mann-Whitney 测试给出令人惊讶的结果对于中位数相等但仍然存在随机优势组的示例,请考虑以下情况:

g1 = c(rep(0, 11), 1:10)                # group 1 has 11 0s, & then 1 to 10
g2 <- g3 <- g4<- c(-10:-1, rep(0, 11))  # the other groups have 11 0s, & -1 to -10
d  = stack(list(g1=g1, g2=g2, g3=g3, g4=g4))
aggregate(values~ind, d, median)        # the median of every group is 0
#   ind values
# 1  g1      0
# 2  g2      0
# 3  g3      0
# 4  g4      0

在此处输入图像描述

kruskal.test(values~ind, d)  # the KW test is highly significant nonetheless
#   Kruskal-Wallis rank sum test
# 
# data:  values by ind
# Kruskal-Wallis chi-squared = 28.724, df = 3, p-value = 2.559e-06

考虑到这种理解,我们可以回答您的具体问题。

  1. 如果每组(雏鸡)/条件(饲料类型)内的分布具有相同的形状和方差,则显着的 KW 检验意味着至少有一组随机大于(小于)其他组,并且其平均值(和中位数、第一四分位数和八十八分位数等)高于(低于)其他组。如果分布的形状和/或方差不同,则显着的 KW 检验意味着至少有一组随机大于(小于)其他组,其平均值(和中位数、第一四分位数和八十八分位数,等)不一定高于(低于)其他组。
  2. 我不会在 KW 之前运行 Levene 的测试。
  3. 我不会在 KW 之前运行 Kolmogorov-Smirnov 测试。检查 qq-plots 似乎是合理的。

这个问题(Non-normal distribution even with Kruskal-Wallis test)很好地总结了推断随机优势与中位数相等之间的差异。

要回答您的具体问题:

  1. chickwts给出的 KW 测试

    Kruskal-Wallis rank sum test
    
    data:  weight by feed
    Kruskal-Wallis chi-squared = 37.343, df = 5, p-value = 5.113e-07
    

    作为中位数的检验,我们推断至少一组在六周后的中位数体重与其余组的中位数体重不同。作为随机优势的测试,我们只能推断对于至少一个组,该组中随机选择的成员比另一组中随机选择的成员更有可能更重。

  2. 如果您打算使用 KW 作为中位数检验,则需要进行某种异方差检验。如果你找到异方差的证据,那么你只能从 KW 推断出随机优势。

  3. 如果您想使用 KW 作为中位数检验,检查分布相似性是一个好主意。我会选择 QQ 图而不是 KS 测试,因为前者不需要指定特定的分布。如果 QQ 图显示不同的分布,那么您只能从 KW 推断出随机优势。