Anova 和 Kruskal-Wallis 在相同数据上的 p 值矛盾:哪个是正确的?

机器算法验证 假设检验 方差分析 p 值 克鲁斯卡尔-沃利斯测试
2022-03-22 01:55:57

我有一个包含三组任务持续时间值的数据文件,我想确定组对任务持续时间的影响(任务由个人执行;每组有 7 个不同的个人;每个人执行相同的三个任务;以及一个由于实验期间的设置问题,未记录 B 组中的个人)。

我从数据文件创建了以下箱线图(红点是平均值,“n”是每组中时间值的数量):

在此处输入图像描述

以及以下直方图(以“分钟:秒”给出的持续时间):

在此处输入图像描述

我每组的数据样本很小,“Shapiro-Wilk 正态性检验”告诉我 A 组并非来自正态分布,而 B 组和 C 组来自正态分布。因为组很小并且一组是非正态的,所以我决定运行 Kruskal-Wallis 单向方差分析(非参数),其结果是:

Kruskal-Wallis rank sum test
data:  Duration by Group 
Kruskal-Wallis chi-squared = 4.2811, df = 2, p-value = 0.1176

所以我应该接受组的影响不显着(p值> 0.05)。

但是,当我运行单向 Anova 时(为了防止 Kruskal-Wallis 不是正确的选择进行完整性检查),Anova 的结果是:

ANOVA Duration ~ Group 
            Df    Sum Sq   Mean Sq F value  Pr(>F)   
Group        2 0.0003692 1.846e-04   6.473 0.00293 **
Residuals   57 0.0016257 2.852e-05                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Tukey multiple comparisons of means
   95% family-wise confidence level

             diff          lwr           upr     p adj
B-A -0.0055763154 -0.009704328 -0.0014483027 0.0054132
C-A -0.0048032407 -0.008769307 -0.0008371744 0.0138750
C-B  0.0007730747 -0.003354938  0.0049010874 0.8943085

也就是说,Anova 返回的 p 值 < 0.05,也就是说,说明组效应是显着的(在这种情况下,A 组在 B 和 C 方面存在显着差异)。

但是,由于每组的样本数量很少,而且一组不是正态分布的,我倾向于接受 Kruskal-Wallis 的结果,但我不确定。

所以我的问题是:

我是否应该接受 Kruskal-Wallis 结果,因为对于这种特殊情况,该测试比 Anova 更充分?

我应该如何使用箱线图和直方图来决定最合适的测试?

谢谢

4个回答

箱线图和直方图自己告诉你,你的数据是有偏差的,尤其是在 A 组中。夏皮罗-威尔克检验有点毫无意义。由于数据因此倾斜,方差分析并不真正合适。Kruskal-Wallis 秩和检验基于秩,而不是绝对值,并且不需要正态性,无论是测量值还是残差。这是更合适的测试。

一个快速的谷歌搜索会告诉你一个需要正常,一个不需要。

您可能会考虑的一件事是持续时间是时间的任意表示。例如,您可以将事件的持续时间表示为 2 秒,或者您可以说事件的速率为 0.5 事件/秒。这是完全相同的东西,两个数字可以任意互换以表示。然而,利率往往不那么偏斜,更适合统计分析。您的费率可能是正态分布的,在这种情况下您可以使用 ANOVA。

如果您决定查看汇率,请记住幅度的方向会发生变化,较高的持续时间值 = 较低的汇率值。有些人使用负利率只是为了避免这种混淆。

Kruskal-Wallis 检验和 Anova 检验正在检验不同的假设,两者都可能是正确的,答案不同,因为它们回答不同的问题。

有两件事要记住:首先,如果样本量相等,ANOVA 在面对非正态性时是稳健的——样本量的差异越大,它的可靠性就越低;其次,KW 检验不是对均值或中位数的检验——它实际上是对分布相似性的检验,如果分布相似,则可以将其解释为对位置的检验。根据我的经验,大多数人忽略了 Mann-Whitney 和 KW 测试都期望(要求)被比较的组具有相似的分布。

有几个选项可以解决您的问题。您可能会尝试数据转换(例如,对数)以将数据放在一个规模上,从而在每个组中产生正态分布。或者,您可以在用他们的等级替换数据后尝试运行标准方差分析。当违反方差分析的假设时,这两种方法都是有效的。

分布都非常重叠。Kruskal Wallis 检验似乎表明分布的中心几乎相同。由于几个非常高的值,组的分布高度偏斜。这就是导致分布未能通过夏皮罗-威尔克测试的原因。方差分析 F 检验错误地将 A 组解释为具有明显更大的均值,因为它“忽略”了偏度。Kruskal Wallis 检验给出了适当的答案,而 F 检验则没有。