包含属性可能范围的 Wilcoxon 符号秩检验的效应大小

机器算法验证 r 规模效应 配对数据 威尔克森符号秩
2022-04-08 19:23:07

我目前正在写我的硕士论文,我正在分析从数字高程模型 (DEM) 获得的属性。我尝试比较两个点集,我从两个具有不同分辨率的 DEM 栅格中提取了高度值。

长话短说:我对两个属性(非正态分布和配对样本)进行了 Wilcoxon 符号秩检验。现在,箱线图看起来非常相似,平均值显示出大约一米的差异。我已经了解到显着性对大 n 高度敏感,因此,我专注于效果大小。由于相似的箱线图和平均值,我预计效果会很小。然而,由于这种转变确实是片面的,所以效果大小 (Z/n) 变得相当大,尽管这两组实际上非常相似。

我知道,这些测试旨在找到最小的差异,并实现了这一目标,因为存在单向转变。尽管存在差异,但它相当小,我正在寻找考虑到这一点的效果大小。换句话说,它不仅应该按样本量进行归一化,还应该按属性范围进行归一化。

是否有考虑属性范围的效应大小度量?


下面是一些用模拟数据说明这种行为的 R 代码:

# install.packages("coin")
library(coin)

set.seed(1)
a <- runif(1000,900,1100)
b <- a+runif(1000,0,1)

wilcoxsign_test(a ~ b)
-27.393/sqrt(length(a)) # Z-score/sqrt(n)

diff <- c(a - b)
diff <- diff[ diff!=0 ]
diff.rank <- rank(abs(diff))
diff.rank.sign <- diff.rank * sign(diff)

W <- sum(diff.rank.sign)
Z <- W/sqrt((1000*1001*2001)/6)
Z/sqrt(1000)

windows()
  d = stack(list(a=a, b=b))
  boxplot(values~ind, d)
windows()
  boxplot(a-b)
3个回答

效应大小统计量Z /sqrt( N ) --- 有时称为r --- 在成对观察的情况下,与一组大于另一组的概率有关,或者如果您愿意,差异是始终大于零。

它不测量两组之间的值差异。像 Cohen's d这样的其他效应量统计与均值的差异有关。

对我来说,最实用的方法是考虑结果的实际重要性。如果平均差是 1 米,这是否足够重要?这是主观的,但老实说,任何研究的实际结论都必须是主观的。您可以报告pr,然后离开思考结果对您的大脑实际意味着什么的艰苦工作。

使用效果大小统计的另一种方法是使用 Cohen 的d或您创建的类似于 Cohen 的d的东西。科恩的 d 本质上是均值差除以观测值的标准差。有一些变体;如果需要,您可以查看他们的精确计算。这里的解释是 Cohen 的d为 1 表示均值相差一个标准差。如果您对数据使用均值和标准差感到满意,则可以使用此统计数据。否则,如果您愿意,您可以创建一些效果大小统计数据,例如中位数的差异除以中位数(百分比),或中位数除以@GreggH 建议的 IRQ。

经过一番挖掘并与我的教授交谈后,我想出了一个解决方案以供进一步参考。

问题是,我对 Wilcoxon 符号秩检验有错误的想法。测试的目的是表明两个变量之间是否存在偏移。p 值表明,存在统计学上的显着变化。与现在一样,p 值不像以前那样有意义(由于样本量大),因此需要测量效应量(例如Wasserstein 等人(2016 年))。计算出的效应大小仅表明,如果在一个方向上存在恒定偏移。然而,这并不意味着这种价值观的转变有多强烈。

为了了解这种转变的强度,目前还没有广泛接受的效应量度量。一般来说,非参数检验缺乏效应量测量,例如 Leech & Onwuegbuzie (2002)尽管存在非参数测试的效果测量(例如 Gregg H 建议的测量)。其他测试,例如两样本 Kolmogorov-Smirnov 或 Anderson-Darling 可能有助于更好地了解分布变化。否则,随着样本量的增加,也可以根据中心极限定理使用 t 检验。然后,可以计算其他影响度量(例如 Pearson's d)。

这个答案与 Sal Mangiafico 用其他语言解释的内容一致。我希望它可以帮助别人,同时试图解决这个问题。

如果有人有任何补充或任何内容,很高兴编辑。

参考:

水蛭,南希 L.;Onwuegbuzie, Anthony J. (2002)。呼吁更多地使用非参数统计。

Wasserstein, Ronald L.;拉扎尔,妮可 A.(2016 年)。ASA 关于 p 值的声明:背景、过程和目的。在美国统计学家 70(2)。

如果你有这么多数据,你真的可以使用t-测试没有问题。值得注意的是,Wilcoxon 符号秩检验实际上是在检验一个略有不同的零假设1,2选择 Wilcoxon 符号秩检验的原因通常是人们不愿意假设这些数字是等间隔的。在您的情况下,您似乎认为他们是。

另一个问题是我不会专注于单个箱线图。他们更有可能误导而不是阐明。至少,考虑绘制差异箱线图以及原始数据3的箱线图。

一般来说,效果大小的测量旨在将效果的大小与我们拥有的数据量分开(统计测试必须将两者结合起来),从而以直观和简单的方式传达变化的大小(即,通常是单个数字)。因此,您列出的效果大小不是试图“按样本大小标准化”,而是从测试统计中提取样本大小(尽管在这种情况下是完全不透明的)。

既然您认为这些单位是可靠的,那么平均差的某个版本应该没问题。如果您相信您的听众对这些单位足够熟悉,那么原始的均值差异将是合适的。(考虑到当人们谈论减肥或发育迟缓时,他们总是使用日常度量,例如磅或公斤。)如果您的听众不熟悉这些单位,则需要一个标准化的均值差来使其具有可解释性语境。执行此操作的典型方法是将平均差除以标准偏差(以多种方式之一计算)。事实上,这个程序已经成为“标准化均值差”意思。标准化的概念当然,范围远不止于此,您没有理由需要受该程序的约束。如果在您的情况下可能的平均差异是有限的(例如,受到一些物理约束)并且可以定义它们,您可以将观察到的平均差异除以可能的范围并呈现出来。你只需要确保你清楚地解释你做了什么。我可能会将它与常见的效果大小4结合起来,然后说:

由于操作,栅格显示出显着改善(z=-30,p<0.001)。成对像素之间 100% 的差异是负的,平均偏移为 -0.49,构成的改进等于物理可能的 X%。

参考:

  1. 为什么参数统计比非参数更受欢迎?
  2. 非参数测试究竟完成了什么?你如何处理结果?
  3. 在受试者内部研究中使用误差线表示方法是错误的吗?
  4. 对 Wilcoxon 符号秩检验的影响大小?