Beeswarm 图比直方图更好吗?

数据挖掘 可视化
2022-03-08 19:24:04

我已阅读有关蜂群和直方图的信息。但我不明白其中的区别。在直方图中,如果箱数增加,那么它的解释就会改变。那么蜂群图如何帮助理解数据呢?

1个回答

它们非常相似,但是:

  • 直方图聚合到 bin 的结果(聚合导致的信息丢失:高分辨率点 (2.324) 降低到 bin 分辨率 [2,3])
  • 蜂群图显示轴上点的精确值。这是一个一维散点图。

但是,如果两个点彼此非常接近,如果点的大小足够大,它们就会重叠。为避免这种情况,蜂群图将稍微向一侧移动一个点,使其不重叠。

它们通常看起来相似,因为您在本地拥有的点越多,重叠的可能性就越高。然后,高密度区域通常会导致直方图中的“峰值”。

蜂群情节是更忠实的表现

在此处输入图像描述

  1. 数据差距:取决于分箱(位置和大小),直方图可能无法表示它(如图中的第 1 点)。
  2. 最小值和最大值:想象值限制在 5,但直方图最后一个 bin 继续为 6,它可能给人的印象是变量的最大值为 6。

在这两种情况下,您都可以看到 beeswarm 是更忠实的表示。

正因为如此,它不是高度可扩展的(它必须代表每一个没有重叠的点)。seaborn.swarplot 函数文档中:

此函数类似于 stripplot(),但点被调整(仅沿分类轴),使它们不重叠。这可以更好地表示值的分布,但不能很好地扩展到大量观察值。这种情节有时被称为“蜂群”。