对 Wilcoxon 符号秩检验的影响大小?

机器算法验证 规模效应 威尔克森符号秩
2022-02-15 08:08:34

一些作者(例如 Pallant, 2007, p. 225;见下图)建议通过将检验统计量除以观察次数的平方根来计算 Wilcoxon 符号秩检验的效应大小:

r=Znx+ny

Z是 SPSS(见下图)以及wilcoxsign_testR 中的测试统计输出。(另请参阅我的相关问题:teststatistic vs linearstatistic in wilcoxsign_test

其他人建议使用 Bravais-Pearson (r=cov(XY)sd(X)×sd(Y)) 或斯皮尔曼 (rS) 相关系数(取决于数据类型)。

当你计算它们时,这两个rs 甚至根本不一样。例如,对于我当前的数据:

r = 0.23 (对于r=Znx+ny)

r = 0.43 (皮尔逊)

这些将意味着完全不同的效果大小。

那么哪个是正确使用的效果大小,这两个rs 是如何相互关联的呢?


Pallant, J. (2007) 的第 224 页(底部)和 225 页。SPSS生存手册:

在此处输入图像描述

在此处输入图像描述

2个回答
  • 如果您没有关系,我会报告小于相应之前值的之后值的比例。
  • 如果您确实有关联,您可以报告在非关联对总数中小于之前的值的比例,或者报告所有三个比例(<、=、>),也许是两者的总和更有意义。例如,您可以说“33% 的人对统计数据的恐惧减少了,57% 的人没有变化,10% 的人在课程结束后更加恐惧,因此 90% 的人与之前相同或更好”。

一般来说,假设检验将输出一个 p 值,该值可用于在控制 I 类错误率的同时决定是否拒绝原假设。然而,p 值将效果的大小与我们的清晰程度混为一谈,即它与 null 不一致(本质上,测试可以访问多少数据)。效应大小通常会尝试提取N以便隔离影响的大小。这条推理线阐明了划分背后的基本原理z经过N. 然而,影响大小测量的一个主要考虑因素是可解释性。最常见的考虑因素是在原始效应大小或标准化效应大小之间进行选择。(我想我们可以打电话给z/N一个标准化的效果大小,值得。)无论如何,我的猜测是报告z/N不会让人们对你的效果有一个快速、直接的直觉。

不过,还有另一个问题。虽然您想要估计整体效应的大小,但人们通常使用 Wilcoxon 符号秩检验来处理仅序数的数据。也就是说,他们不相信数据可以可靠地表明学生内部转变的幅度,而只相信发生了转变。这让我想到了上面讨论的改进比例。


另一方面,如果您确实相信这些值在本质上是有意义的(例如,您只使用带符号的秩检验来检验其对正态性和异常值的稳健性),您可以只使用原始均值或中值差,或标准化均值差作为效果的衡量标准。

在不知道评估什么样的数据的情况下,很难在这里给出好的建议。真的,这就是你所能得到的。对于这样的问题,没有最好的衡量效果大小的方法……也许永远不会。

问题中提到的效应量都是标准化的效应量。但完全有可能原始度量的均值或中位数很好。例如,如果您要测量完成制造过程所需的时间,那么时间差应该是一个完全合理的效果大小。过程、未来测量、跨系统测量和跨工厂测量的任何变化都将及时进行。也许您想要平均值,或者您想要中位数,甚至是众数,但您需要做的第一件事是查看实际测量尺度,看看那里的效应大小是否可以合理解释并与测量密切相关。

为了帮助思考这一点,应该标准化的效果是更间接和以多种方式衡量的东西。例如,心理量表会随着时间的推移以多种方式发生变化,并试图获得一个未被直接评估的潜在变量。在这些情况下,您需要标准化的效果大小。

对于标准化的效果大小,关键问题不仅在于使用哪个,还在于它们的含义。正如您在问题中暗示的那样,您也不知道它们的含义,这是关键。如果您不知道标准化效果是什么,那么您就无法正确报告、正确解释或正确使用它。此外,如果您想以多种方式讨论数据,那么绝对没有什么能阻止您报告一个以上的效应量。您可以根据线性关系(例如产品矩相关性)或 Spearman 的等级关系来讨论您的数据r以及它们之间的差异或仅提供表中的所有信息。这一点都没有错。但最重要的是,您将不得不决定您希望您的结果意味着什么。这是无法从给出的信息中回答的问题,并且可能需要比此类论坛中的问题合理得多的信息和特定领域的知识。

并且始终以元分析的方式思考您如何报告效果。未来人们是否能够获取我报告的结果并将其与其他人整合?也许在您的领域中有这些事情的标准。也许您选择非参数检验主要是因为您不相信其他人对基础分布所做的结论,并且您希望在主要使用参数检验的领域中的假设更加保守。在这种情况下,额外提供通常与参数测试一起使用的效果大小并没有错。在考虑如何将您的发现放入更大的类似研究文献中时,需要考虑这些和许多其他问题。通常,良好的描述性统计数据可以解决这些问题。

所以这是主要的建议。我有一些补充意见。如果您希望您的效果大小与您所做的测试密切相关,那么Z基于推荐的建议显然是最好的。您的标准化效应大小与测试的含义相同。但是,只要您不这样做,那么使用大多数其他东西就没有错,即使是d与参数测试相关的科恩之类的东西。计算均值、标准差或d分数。事实上,有比推荐的相关系数更弱的假设。并始终报告良好的描述性措施。同样,描述性措施没有您会违反的假设,但请记住它们的实质性含义。您报告描述性统计数据,这些数据说明了您想说的数据,而均值和中位数则说明了不同的内容。

如果您想讨论重复测量与独立设计效果大小,那么这确实是一个全新的问题。