如何解释缺口箱线图

机器算法验证 数据可视化 ggplot2 探索性数据分析
2022-01-25 10:39:32

在做一些 EDA 时,我决定使用箱线图来说明一个因素的两个水平之间的差异。

ggplot渲染箱线图的方式令人满意,但略显简单(下面的第一张图)。在研究箱形图的特征时,我开始尝试使用缺口。

我知道缺口显示中位数周围的 CI,如果两个框的缺口不重叠,则有“强有力的证据”——在 95% 的置信水平上——中位数不同。

在我的情况下(第二个情节),缺口没有有意义的重叠。但是为什么右手边的盒子底部会出现这种奇怪的形状呢?

在小提琴图中绘制相同的数据并没有表明相应小提琴的概率密度有任何异常。

图1箱线图

图 2 缺口箱线图

1个回答

在我的情况下(第二个情节),缺口没有有意义的重叠。但是为什么右手边的盒子底部会出现这种奇怪的形状呢?我该如何解释?

它表示第 25 个百分位约为 21,第 75 个百分位约为 30.5。而缺口的下限和上限分别是18和27左右。

一个常见的原因是您的分布有偏差或样本量很小。缺口的边界基于:

median±1.57×IQRn

如果中位数与第 25 个百分位数之间的距离以及中位数与第 75 个百分位数之间的距离相差很大(如右图)和/或样本量较小,则缺口会更宽。如果它足够宽以至于缺口边界比第 25 和第 75 个百分位数(又名方框)更极端,那么缺口箱线图将显示这种“由内而外”的形状。