均值差的置信区间和科恩效应大小的置信区间冲突

机器算法验证 置信区间 规模效应
2022-03-29 11:54:32

我进行了一个实验来比较两种算法的性能。我的实验设计是配对比较。我以这种方式报告我的结果:

通过检查箱线图评估的平均差异数据中没有异常值。通过 0.2276 (SE = 0.4405) 的偏度和 -0.2766 (SE = 0.8583) 的峰度评估,没有违反正态性假设。算法 A (M = 0.3876, SD = 0.3138) 的性能高于算法 B (M = 0.2241, SD = 0.3476),静态显着平均增加 0.1635, 95% CI [0.0393, 0.2877], t(27 ) = 2.7007, p = 0.0118, d = 0.4938, d [-0.0501, 1.0378] 的 95% CI。

请注意,均值差的 95% 置信区间不包括零,但 Cohen'd 的 95% 置信区间包括零我正要得出结论,算法 A 比算法 B 具有更好的性能,具有统计显着性和中等效应大小,但我对如何解释 Cohen's d 的置信区间感到困惑。

关于这些数据的影响大小,我能说些什么?

以下是我的数据以及我如何使用 R 计算值。

感谢您的关注。

a = c(0.40000000, 0.44011976, 0.72727273, 0.50000000, 0.00000000, 0.07692308, 0.00000000, 0.00000000, 0.00000000, 1.00000000, 0.50000000, 0.91666667, 0.19354839, 0.74883721, 0.50000000, 0.50000000, 0.55000000, 0.17142857, 0.50000000, 0.51351351, 0.68000000, 0.85714286, 0.03703704, 0.05454545, 0.54219949, 0.44444444, 0.00000000, 0.00000000)
b = c(0.00000000, 0.54491018, 0.72727273, 0.00000000, 0.00000000, 0.00000000, 0.00000000, 0.00000000, 0.00000000, 1.00000000, 0.00000000, 0.00000000, 0.00000000, 0.33953488, 0.00000000, 0.00000000, 0.00000000, 0.48571429, 0.00000000, 0.83783784, 0.80000000, 0.57142857, 0.00000000, 0.00000000, 0.06393862, 0.90476190, 0.00000000, 0.00000000)
mean(a)
sd(a)
mean(b)
sd(b)
t.test(a, b, paired=TRUE)

library(compute.es)
mes(mean(a), mean(b), sd(a), sd(b), length(a), length(b), dig=4)
2个回答

对于配对数据,Cohen 有类似的效应大小测量,有时称为“标准化平均变化”或“标准化平均增益”。这是用其中是时间 1(或条件 1)的平均值,是时间 2(或条件 2)的平均值,是变化/差异分数的平均值,是变化/差异分数的标准差。

d=x¯1x¯2SDD=x¯DSDD,
x¯1x¯2x¯DSDD

这是使用“变化分数标准化”的标准化平均变化。还有使用“原始分数标准化”的标准化均值变化,但前者更直接地与您对相关样本 t 检验的使用相关。

您可以使用该metafor包来计算它(以及相应的 CI):

summary(escalc(measure="SMCC", m1i=mean(a), sd1i=sd(a), m2i=mean(b), sd2i=sd(b), ni=length(a), ri=cor(a,b)))

产量:

      yi     vi    sei     zi  ci.lb  ci.ub
1 0.4961 0.0401 0.2003 2.4769 0.1035 0.8886

因此,现在 CI 不再包含 0,这与 t 检验的结果一致。(注:下面的数值yi是上面的d值,但经过了轻微的偏差校正)。

如果您想了解更多相关信息,请参考一些参考资料:

Morris, SB 和 DeShon, RP (2002)。将荟萃分析中的效应量估计与重复测量和独立组设计相结合。心理学方法,7, 105–125。

Viechtbauer, W. (2007)。两个独立和两个依赖样本设计中标准化效应大小的近似置信区间。教育和行为统计杂志,32, 39-60。

更新:获取 d 的确切 CI。

在极少数情况下,t 检验(以及平均差的 CI)的结果可能会产生与上面获得的 d 的 CI 不同的结论(即,平均差的 CI 包括值 0,而d 的 CI 没有,反之亦然)。这是因为 d 的 CI 基于使用正态分布的渐近近似。

可以计算标准化平均变化的精确 CI,但这需要迭代方法(参见 Viechtbauer,2007 年以及其中给出的参考资料)。精确 CI 的优势在于,它总是 100% 地与 t 检验的结果和结论中均值差的 CI 一致。

与其让计算机为我们完成迭代工作(可以通过几行代码完成),还可以通过反复试验手动完成。对于http://pastebin.com/12J7UghC中给出的数据,可以通过以下方式获得 d 的确切 CI 的范围:

tval <- t.test(a, b, paired=TRUE)$statistic
pt(tval, df=length(a)-1, ncp=-0.00265265 * sqrt(length(a)), lower.tail=TRUE)
pt(tval, df=length(a)-1, ncp=-0.77193310 * sqrt(length(a)), lower.tail=FALSE)

本质上,我们只需要找到 t 分布的非中心参数的这两个值,以便观察到的 t 值在分布的下尾和上尾截断 0.025。通过一些试验和错误(从前面获得的 CI 界限开始),我们发现 d 的准确 95% CI 是现在事情又是一致的:t 检验拒绝(只是勉强,),均值差的 CI 不包括 0(只是勉强),而 d 的 CI 不包括 0(只是勉强)。(0.003,0.772)p=.048

mes不考虑数据的配对性,因此,这是一个不同的测试;通常,配对测试更强大,因此配对测试显着而非配对不显着也就不足为奇了。