机器算法验证 - 均值差的置信区间和科恩效应大小的置信区间冲突 - 吾爱随笔录

均值差的置信区间和科恩效应大小的置信区间冲突

机器算法验证置信区间规模效应

2022-03-29 11:54:32

我进行了一个实验来比较两种算法的性能。我的实验设计是配对比较。我以这种方式报告我的结果：

通过检查箱线图评估的平均差异数据中没有异常值。通过 0.2276 (SE = 0.4405) 的偏度和 -0.2766 (SE = 0.8583) 的峰度评估，没有违反正态性假设。算法 A (M = 0.3876, SD = 0.3138) 的性能高于算法 B (M = 0.2241, SD = 0.3476)，静态显着平均增加 0.1635, 95% CI [0.0393, 0.2877], t(27 ) = 2.7007, p = 0.0118, d = 0.4938, d [-0.0501, 1.0378] 的 95% CI。

请注意，均值差的 95% 置信区间不包括零，但 Cohen'd 的 95% 置信区间包括零。我正要得出结论，算法 A 比算法 B 具有更好的性能，具有统计显着性和中等效应大小，但我对如何解释 Cohen's d 的置信区间感到困惑。

关于这些数据的影响大小，我能说些什么？

以下是我的数据以及我如何使用 R 计算值。

感谢您的关注。

a = c(0.40000000, 0.44011976, 0.72727273, 0.50000000, 0.00000000, 0.07692308, 0.00000000, 0.00000000, 0.00000000, 1.00000000, 0.50000000, 0.91666667, 0.19354839, 0.74883721, 0.50000000, 0.50000000, 0.55000000, 0.17142857, 0.50000000, 0.51351351, 0.68000000, 0.85714286, 0.03703704, 0.05454545, 0.54219949, 0.44444444, 0.00000000, 0.00000000)
b = c(0.00000000, 0.54491018, 0.72727273, 0.00000000, 0.00000000, 0.00000000, 0.00000000, 0.00000000, 0.00000000, 1.00000000, 0.00000000, 0.00000000, 0.00000000, 0.33953488, 0.00000000, 0.00000000, 0.00000000, 0.48571429, 0.00000000, 0.83783784, 0.80000000, 0.57142857, 0.00000000, 0.00000000, 0.06393862, 0.90476190, 0.00000000, 0.00000000)
mean(a)
sd(a)
mean(b)
sd(b)
t.test(a, b, paired=TRUE)

library(compute.es)
mes(mean(a), mean(b), sd(a), sd(b), length(a), length(b), dig=4)

2个回答

对于配对数据，Cohen 有类似的效应大小测量，有时称为“标准化平均变化”或“标准化平均增益”。这是用其中是时间 1（或条件 1）的平均值，是时间 2（或条件 2）的平均值，是变化/差异分数的平均值，是变化/差异分数的标准差。

d = \frac{{\bar{x}}_{1} - {\bar{x}}_{2}}{S D_{D}} = \frac{{\bar{x}}_{D}}{S D_{D}},

$d = \frac{\bar{x}_1 - \bar{x}_2}{SD_D} = \frac{\bar{x}_D}{SD_D},$

{\bar{x}}_{1}

$\bar{x}_1$

{\bar{x}}_{2}

$\bar{x}_2$

{\bar{x}}_{D}

$\bar{x}_D$

S D_{D}

$SD_D$

这是使用“变化分数标准化”的标准化平均变化。还有使用“原始分数标准化”的标准化均值变化，但前者更直接地与您对相关样本 t 检验的使用相关。

您可以使用该metafor包来计算它（以及相应的 CI）：

summary(escalc(measure="SMCC", m1i=mean(a), sd1i=sd(a), m2i=mean(b), sd2i=sd(b), ni=length(a), ri=cor(a,b)))

产量：

      yi     vi    sei     zi  ci.lb  ci.ub
1 0.4961 0.0401 0.2003 2.4769 0.1035 0.8886

因此，现在 CI 不再包含 0，这与 t 检验的结果一致。（注：下面的数值yi是上面的d值，但经过了轻微的偏差校正）。

如果您想了解更多相关信息，请参考一些参考资料：

Morris, SB 和 DeShon, RP (2002)。将荟萃分析中的效应量估计与重复测量和独立组设计相结合。心理学方法，7, 105–125。

Viechtbauer, W. (2007)。两个独立和两个依赖样本设计中标准化效应大小的近似置信区间。教育和行为统计杂志，32, 39-60。

更新：获取 d 的确切 CI。

在极少数情况下，t 检验（以及平均差的 CI）的结果可能会产生与上面获得的 d 的 CI 不同的结论（即，平均差的 CI 包括值 0，而d 的 CI 没有，反之亦然）。这是因为 d 的 CI 基于使用正态分布的渐近近似。

可以计算标准化平均变化的精确 CI，但这需要迭代方法（参见 Viechtbauer，2007 年以及其中给出的参考资料）。精确 CI 的优势在于，它总是 100% 地与 t 检验的结果和结论中均值差的 CI 一致。

与其让计算机为我们完成迭代工作（可以通过几行代码完成），还可以通过反复试验手动完成。对于http://pastebin.com/12J7UghC中给出的数据，可以通过以下方式获得 d 的确切 CI 的范围：

tval <- t.test(a, b, paired=TRUE)$statistic
pt(tval, df=length(a)-1, ncp=-0.00265265 * sqrt(length(a)), lower.tail=TRUE)
pt(tval, df=length(a)-1, ncp=-0.77193310 * sqrt(length(a)), lower.tail=FALSE)

本质上，我们只需要找到 t 分布的非中心参数的这两个值，以便观察到的 t 值在分布的下尾和上尾截断 0.025。通过一些试验和错误（从前面获得的 CI 界限开始），我们发现 d 的准确 95% CI 是。现在事情又是一致的：t 检验拒绝（只是勉强，），均值差的 CI 不包括 0（只是勉强），而 d 的 CI 不包括 0（只是勉强）。 $(-0.003, -0.772)$ $p=.048$

mes不考虑数据的配对性，因此，这是一个不同的测试；通常，配对测试更强大，因此配对测试显着而非配对不显着也就不足为奇了。

其它你可能感兴趣的问题

上一篇statsmodels：重复值列表中的 kde 错误下一篇“轮换”发行版意味着什么？