似乎人们真正想要绘制的是某种置信区间,但我认为为此目的使用 SE 最终只会包含 68% 的置信区间。因此,将 SE 绘制为误差条而不是更宽的带,更能代表分析的显着性水平,这在视觉上表明您的数据中可能实际上并不存在的显着性。
考虑以下具体示例:
set.seed(123)
X <- rnorm(100, 0, 1)
Y <- rnorm(100,1.7,5)
df = data.frame(X,Y)
boxplot(df)
se.x = sd(X)/sqrt(length(X))
se.y = sd(Y)/sqrt(length(Y))
X.err.CI = 1.96*se.x
Y.err.CI = 1.96*se.y
plot(1:2, colMeans(df), ylim=c(-1,3), xlim = c(0.5,4.5), col="dark green"
, main="Comparison of SE bars vs 95% CI")
lines(c(1,1), c(mean(X) + X.err.CI, mean(X) - X.err.CI), col="dark green")
lines(c(2,2), c(mean(Y) + Y.err.CI, mean(Y) - Y.err.CI), col="dark green")
text(1:2 + .2, colMeans(df), c("X","Y"))
points(3:4, colMeans(df), col="blue")
lines(c(3,3), c(mean(X) + se.x, mean(X) - se.x), col="blue")
lines(c(4,4), c(mean(Y) + se.y, mean(Y) - se.y), col="blue")
text(3:4 + .2, colMeans(df), c("X","Y"))
abline(v=2.5, lty=2)
legend("topright"
,c("95% CI", "+/- SE")
,lty=c(1,1)
,pch=c(1,1)
,col=c("dark green", "blue")
)

如果我们仅基于 SE(右图)进行分析,从视觉上看起来 X 和 Y 的均值之间存在显着性,因为我们的误差条没有重叠。但如果我们在 5% 的显着性水平上进行测试,绘制 95% 的置信带表明情况显然并非如此。
既然我们可以预期 32% 水平的测试永远不合适,为什么还要显示 SE 条,因为它们可能会被解释为代表置信区间?人们是否使用 SE 条而不是更有意义的 CI,因为它比较容易计算(例如使用 Excel 中的内置函数)?似乎我们在图形的可解释性方面付出了相当高的成本,以换取少几分钟的工作。SE 酒吧中是否有一些我缺少的价值/效用?
对于上下文,我在浏览这篇文章后被提示写这个。我对作者提供的图表缺乏置信区间感到沮丧,然后当他们最终提供它们时,事实证明它们只是 SE 条。