箱线图还是小提琴图?

数据挖掘 数据挖掘 可视化 分配
2021-10-12 01:02:51

这是一个相当普遍的问题,也许有点基于意见。

在大多数论文中,人们使用箱线图来可视化某个分布,但小提琴图能够提供更多信息。小提琴图是通过对您的分布执行核密度估计来制作的。

是否有客观的论据可以使用其中一种?或者,也许在某些特定情况下,人们会更喜欢其中一种?

可以在此处找到两者的示例:在此处输入图像描述

3个回答

我是小提琴情节的忠实粉丝。尽管两者都针对相同的目标(为此可视化分布和关键数据),但箱线图有其局限性。请查看以下 gif [1]):箱形图无法捕捉原始数据的变化,而 voilin-plots 可以:

分布图

[1] 取自https://www.autodesk.com/research/publications/same-stats-different-graphs

很大程度上取决于用户和观众的偏好(小提琴情节更不寻常可能会让人失望),所以这主要取决于你。

使用小提琴图的一个主要原因是提供有关分布的更多细节,因为箱线图只是在均值、stddev 和 2 个 stddev 处给出了硬停止。因此,如果您认为这些点之间的分布中包含有趣的信息,请选择小提琴。

另一个主要原因是他们更关注 Kaggle ;)

好吧,Boxplot 只给出硬停止是不正确的!小提琴图是我想说的箱线图的当代版本,很容易让眼睛看到数据的分布。箱线图还可以揭示数据的分布方式。例如,在这里您可以看到正态分布数据的箱线图,该数据与中心(顶部)的均值和中位数对称,以及非正态数据(底部)。来源在这里

在此处输入图像描述

有关如何根据正态分布解释箱线图的更多详细信息,请参见此处

在此处输入图像描述

旁注:箱线图通常也用于简单快速的异常值检测。

说我完全同意 jshep 的观点,即这是用户和观众的品味问题,通常学者倾向于像 Boxplots 这样不那么花哨的演示文稿。