有没有比并排条形图更好的方法来比较来自不同系列的分箱数据

机器算法验证 数据可视化 直方图 QQ图 条形图
2022-04-03 04:28:40

我有一个来自数据源的数字直方图。我想比较它们的分布。例如,系列 2 比系列 1 更靠右。

在此处输入图像描述

除了并排绘制直方图之外,还有什么好的对比方法。我可以想到qqplot或箱线图。但是数据已经被分箱了。如果我线性插入百分位数是否有意义?

编辑1:

我正在探索 Excel 中的图表。创造力没有很大的灵活性。我破解了 Excel 以使其成为人口统计图表样式。好消息是它是许多人熟悉的可视化。

在此处输入图像描述

编辑2:

我对数据进行插值以获得 25 和 75 个百分位数,以制作这个四分位数间的图表,而不是箱线图。它丢失了很多细节。但这对于比较很多系列可能很有用。

在此处输入图像描述

编辑3:

很抱歉最初没有发布原始数据。在我做实验的时候,这些东西是杂乱无章的。

16-19,0.0028826,0.031066407
20-24,0.05581761,0.094111701
25-34,0.278301887,0.215492493
35-44,0.289046122,0.214615109
45-54,0.228773585,0.230744934
55-64,0.120807128,0.163116187
65+,0.024633124,0.050853168
2个回答

我同意使用更多细节的原则,例如查看整个分布或分位数集,如果数据可用,会好得多。相反,将您拥有的内容转换为四分位数只会丢弃更多信息,在这里并不是一个好主意。

你是对的,并排或背靠背的条形图都很受欢迎。在按性别进行年龄分布的情况下,后者通常被称为人口金字塔,但它是一种非常低效的设计,用于显示分布的差异(或与此相关的比率),因为它迫使读者在指向不同方向的条形之间进行比较。令人惊讶的是,很少有文本对金字塔的局限性提出这个非常简单的观点。给人的印象是,使用这种图表是世代相传的习俗或仪式。

对于这种年龄-性别数据,上下文是相当小的差异或比率通常是有趣和重要的,好像说最古老类别中的人数是 2% 或 3%,所以你希望能够很容易看到。对于任何类型的数据,确实,这是一个有用的特性。

因此,一个有竞争力的选择只是一个(克利夫兰)点图。对于这个例子,我只是从你自己的显示器中粗略地猜测了你的数据。

在此处输入图像描述

小重点:

  1. 像 o 和 + 这样的符号可以很好地容忍重叠。

  2. 点图与例如对数刻度兼容,当它以条形图没有的方式有意义时。

  3. 此设计的一个变体将数据点与明确的水平线段甚至箭头连接起来。

  4. 我们这里只有两个系列,但点状图可以显示更多。自然地,图表会变得更加拥挤并且更难以解释,但任何替代设计也是如此。

  5. 您接受了“系列 1”和“系列 2”的 Excel 默认值,我复制了您。这不是你的问题,但接触和使用信息性文本仍然是非常好的做法。

对于另一个示例,请参阅如何最好地可视化三个组中许多比例的差异?

条形的问题是它们不能很好地覆盖。点是一种选择,线条是另一种选择。如果您有完整的数据,还有其他数据(箱线图、小提琴图……)。尼克考克斯的回答显示了点,在这种情况下值得强调线条,因为它与频率多边形的使用非常相似。

在此处输入图像描述

我不知道为什么它被称为“多边形”——它只是直方图条的连接顶部,它允许在没有太多模糊的情况下进行叠加。