箱线图提供了哪些直方图没有的信息?

机器算法验证 数据可视化 直方图 箱形图
2022-01-18 15:58:47

直方图可以很好地了解变量的分布。箱线图试图做同样的事情,但不能很好地描述这个变量的分布。

我不明白为什么人们使用箱线图。直方图在各个方面都更好。我有理由同时使用它们吗?

我认为箱形图提供的唯一东西是:异常值!它告诉我们哪些观察结果可能是异常值。

4个回答

在某些情况下,箱线图提供更多分布摘要的事实也可以被视为优势。有时,当我们比较分布时,我们并不关心整体形状,而是关心分布相对于彼此的位置。并排绘制分位数可能是一种有用的方法,它不会分散我们可能不关心的其他细节的注意力。

在单变量情况下,箱线图确实提供了一些直方图没有的信息(至少,不是明确的)。也就是说,它通常提供不是异常值的中值、第 25 和第 75 个百分位数、最小值/最大值,并明确区分被认为是异常值的点。这都可以从直方图中“目测”(并且在异常值的情况下可能更好地目测)。

然而,更大的优势在于同时比较许多不同组的分布。对于 10 多个组,使用并列直方图是一项令人厌烦的任务,但使用箱形图非常容易。

正如您所提到的,小提琴图(或豆图)是更具信息性的替代方案。但是,它们比箱形图需要更多的统计知识(即,如果呈现给非统计受众,它可能会更令人生畏)并且箱形图的存在时间比核密度估计器要长得多,因此它们更受欢迎。

  1. 如果我给你看一个直方图并问你中位数在哪里,你可能需要很长时间才能弄清楚……然后你只会得到一个近似值。如果我对箱线图做同样的事情,你会立即得到它;如果您对此感兴趣,那么箱线图显然会赢。

  2. 我同意箱线图不如描述单个样本的分布有效,因为它们将其减少到几个点,这并不能告诉你很多。

    但是,如果您要比较几十个分布,拥有每个分布的所有详细信息可能比容易比较的信息更多——您可能希望将信息减少到要比较的较少数量的事物。

  3. 如果信息越多越好,有很多比直方图更好的选择;例如,茎叶图或 ecdf / 分位数图。

    或者您可以将信息添加到直方图:

带边际箱线图的直方图 带抖动的直方图地毯图 带条形图的直方图

(来自这个答案的情节

其中第一个——在边距上添加一个狭窄的箱线图——为您提供从任一显示中获得的任何好处。

条形图仅提供观察频率的范围,而箱形图更好地说明分布的几个参数所在的位置,例如条形图无法提供的均值和方差。如果一个有多个分布,箱线图因此被用作一种有效的比较工具。