我进行了一个实验来比较两种算法的性能。我的实验设计是配对比较。我以这种方式报告我的结果:
通过检查箱线图评估的平均差异数据中没有异常值。通过 0.2276 (SE = 0.4405) 的偏度和 -0.2766 (SE = 0.8583) 的峰度评估,没有违反正态性假设。算法 A (M = 0.3876, SD = 0.3138) 的性能高于算法 B (M = 0.2241, SD = 0.3476),静态显着平均增加 0.1635, 95% CI [0.0393, 0.2877], t(27 ) = 2.7007, p = 0.0118, d = 0.4938, d [-0.0501, 1.0378] 的 95% CI。
请注意,均值差的 95% 置信区间不包括零,但 Cohen'd 的 95% 置信区间包括零。我正要得出结论,算法 A 比算法 B 具有更好的性能,具有统计显着性和中等效应大小,但我对如何解释 Cohen's d 的置信区间感到困惑。
关于这些数据的影响大小,我能说些什么?
以下是我的数据以及我如何使用 R 计算值。
感谢您的关注。
a = c(0.40000000, 0.44011976, 0.72727273, 0.50000000, 0.00000000, 0.07692308, 0.00000000, 0.00000000, 0.00000000, 1.00000000, 0.50000000, 0.91666667, 0.19354839, 0.74883721, 0.50000000, 0.50000000, 0.55000000, 0.17142857, 0.50000000, 0.51351351, 0.68000000, 0.85714286, 0.03703704, 0.05454545, 0.54219949, 0.44444444, 0.00000000, 0.00000000)
b = c(0.00000000, 0.54491018, 0.72727273, 0.00000000, 0.00000000, 0.00000000, 0.00000000, 0.00000000, 0.00000000, 1.00000000, 0.00000000, 0.00000000, 0.00000000, 0.33953488, 0.00000000, 0.00000000, 0.00000000, 0.48571429, 0.00000000, 0.83783784, 0.80000000, 0.57142857, 0.00000000, 0.00000000, 0.06393862, 0.90476190, 0.00000000, 0.00000000)
mean(a)
sd(a)
mean(b)
sd(b)
t.test(a, b, paired=TRUE)
library(compute.es)
mes(mean(a), mean(b), sd(a), sd(b), length(a), length(b), dig=4)