为什么标准误差有时用于绘图中的“误差带”?

机器算法验证 统计学意义 数据可视化 置信区间 解释 标准错误
2022-04-04 14:21:22

似乎人们真正想要绘制的是某种置信区间,但我认为为此目的使用 SE 最终只会包含 68% 的置信区间。因此,将 SE 绘制为误差条而不是更宽的带,更能代表分析的显着性水平,这在视觉上表明您的数据中可能实际上并不存在的显着性。

考虑以下具体示例:

set.seed(123)
X <- rnorm(100, 0, 1)
Y <- rnorm(100,1.7,5)
df = data.frame(X,Y)

boxplot(df)

se.x = sd(X)/sqrt(length(X))
se.y = sd(Y)/sqrt(length(Y))

X.err.CI = 1.96*se.x
Y.err.CI = 1.96*se.y


plot(1:2, colMeans(df), ylim=c(-1,3), xlim = c(0.5,4.5), col="dark green"
     , main="Comparison of SE bars vs 95% CI")
lines(c(1,1), c(mean(X) + X.err.CI, mean(X) - X.err.CI), col="dark green")
lines(c(2,2), c(mean(Y) + Y.err.CI, mean(Y) - Y.err.CI), col="dark green")
text(1:2 + .2, colMeans(df), c("X","Y"))

points(3:4, colMeans(df), col="blue")
lines(c(3,3), c(mean(X) + se.x, mean(X) - se.x), col="blue")
lines(c(4,4), c(mean(Y) + se.y, mean(Y) - se.y), col="blue")
text(3:4 + .2, colMeans(df), c("X","Y"))

abline(v=2.5, lty=2)

legend("topright"
       ,c("95% CI", "+/- SE")
       ,lty=c(1,1)
       ,pch=c(1,1)
       ,col=c("dark green", "blue")
       )

在此处输入图像描述

如果我们仅基于 SE(右图)进行分析,从视觉上看起来 X 和 Y 的均值之间存在显着性,因为我们的误差条没有重叠。但如果我们在 5% 的显着性水平上进行测试,绘制 95% 的置信带表明情况显然并非如此。

既然我们可以预期 32% 水平的测试永远不合适,为什么还要显示 SE 条,因为它们可能会被解释为代表置信区间?人们是否使用 SE 条而不是更有意义的 CI,因为它比较容易计算(例如使用 Excel 中的内置函数)?似乎我们在图形的可解释性方面付出了相当高的成本,以换取少几分钟的工作。SE 酒吧中是否有一些我缺少的价值/效用?

对于上下文,我在浏览这篇文章后被提示写这个我对作者提供的图表缺乏置信区间感到沮丧,然后当他们最终提供它们时,事实证明它们只是 SE 条。

2个回答

主要是“过去就是这样做的”,但在某些领域,这正是因为作者没有直接从报告的标准错误中得出统计推断(尽管对于示例论文,这样做可能是合理的)。

例如,物理研究论文经常描述与数据收集中(估计的)统计误差相关的标准误差。这些通常是通过使用相同的设置多次运行(尽可能)相同的实验并估计方差来估计的。然而,这些统计误差很少用于直接置信区间/显着程度类型的评估。这是因为在大多数实验中,各种类型的系统误差都可能大于统计误差,而这些类型的误差不适合进行统计分析。因此,仅基于统计误差来表示 95% 的置信区间可能具有欺骗性。实验粒子物理学家尤其不遗余力地识别统计不确定性,

无论是从惯例还是其他方面,从某种意义上说,读者很容易形成自己的重要性概念,即在心理上,读者可以考虑2或3倍的倍数来获得自己的重要性概念,这是诚实的. 从某种意义上说,您是在让数据为自己说话,而不是数据说话。

从这个角度来看,提供 SE 作为绑定的基础是合乎逻辑的。然而,在我看来,图表的标题应该清楚地表明,条带的基础实际上是一个 SE。同样,这些不应以任何方式识别为置信区间,而应仅作为数据集的属性