直方图可以很好地了解变量的分布。箱线图试图做同样的事情,但不能很好地描述这个变量的分布。
我不明白为什么人们使用箱线图。直方图在各个方面都更好。我有理由同时使用它们吗?
我认为箱形图提供的唯一东西是:异常值!它告诉我们哪些观察结果可能是异常值。
直方图可以很好地了解变量的分布。箱线图试图做同样的事情,但不能很好地描述这个变量的分布。
我不明白为什么人们使用箱线图。直方图在各个方面都更好。我有理由同时使用它们吗?
我认为箱形图提供的唯一东西是:异常值!它告诉我们哪些观察结果可能是异常值。
在某些情况下,箱线图提供更多分布摘要的事实也可以被视为优势。有时,当我们比较分布时,我们并不关心整体形状,而是关心分布相对于彼此的位置。并排绘制分位数可能是一种有用的方法,它不会分散我们可能不关心的其他细节的注意力。
在单变量情况下,箱线图确实提供了一些直方图没有的信息(至少,不是明确的)。也就是说,它通常提供不是异常值的中值、第 25 和第 75 个百分位数、最小值/最大值,并明确区分被认为是异常值的点。这都可以从直方图中“目测”(并且在异常值的情况下可能更好地目测)。
然而,更大的优势在于同时比较许多不同组的分布。对于 10 多个组,使用并列直方图是一项令人厌烦的任务,但使用箱形图非常容易。
正如您所提到的,小提琴图(或豆图)是更具信息性的替代方案。但是,它们比箱形图需要更多的统计知识(即,如果呈现给非统计受众,它可能会更令人生畏)并且箱形图的存在时间比核密度估计器要长得多,因此它们更受欢迎。
如果我给你看一个直方图并问你中位数在哪里,你可能需要很长时间才能弄清楚……然后你只会得到一个近似值。如果我对箱线图做同样的事情,你会立即得到它;如果您对此感兴趣,那么箱线图显然会赢。
我同意箱线图不如描述单个样本的分布有效,因为它们将其减少到几个点,这并不能告诉你很多。
但是,如果您要比较几十个分布,拥有每个分布的所有详细信息可能比容易比较的信息更多——您可能希望将信息减少到要比较的较少数量的事物。
如果信息越多越好,有很多比直方图更好的选择;例如,茎叶图或 ecdf / 分位数图。
或者您可以将信息添加到直方图:
(来自这个答案的情节)
其中第一个——在边距上添加一个狭窄的箱线图——为您提供从任一显示中获得的任何好处。
条形图仅提供观察频率的范围,而箱形图更好地说明分布的几个参数所在的位置,例如条形图无法提供的均值和方差。如果一个有多个分布,箱线图因此被用作一种有效的比较工具。