在美国数据中可视化大型冠状病毒集群的挑战

数据挖掘 可视化
2022-03-03 09:48:16

我正在尝试获取美国大型冠状病毒集群的数据,并将它们可视化以显示大小和不同的环境(监狱、医疗机构等)。我想展示不同设置之间的区别。

如果尺寸更相似,我会尝试显示堆积条形图(以尺寸为横轴,计数为纵轴)。不幸的是,这并不奏效,因为有些集群比其他集群大得多。

我的数据的前几行看起来像(有很多老年护理机构有 50 个案例):

size category
50 agedcare
50 agedcare
50 agedcare
50 agedcare
50 agedcare
50 agedcare
50 agedcare

底部看起来像(监狱和肉类包装设施爆发巨大)

931 prisons
981 prisons
1028 prisons
1031 meat
1051 prisons
1065 prisons
1098 meat
1107 prisons
1283 prisons
1362 prisons
1374 prisons
1791 prisons
2439 prisons

这是较小尺寸的可视化在此处输入图像描述

我可以做一些分箱,我得到了这个:

在此处输入图像描述

但是仍然很难立即看出其中一些设置类型的爆发较小,而其他设置类型的爆发则要大得多。

关于如何可视化的任何建议都会有所帮助(如果重要的话,我主要使用 python)

1个回答

小倍数风格的可视化怎么样?一个不错的 2 x 3 网格将涵盖这里的六个类别。X 上的尺寸,Y 上的频率。

这种方法是显示此类数据的最清晰方法之一。堆叠直方图很难解释,因为相同颜色的条没有共同的起点。如果您将六个直方图排列在一个 Y 上具有共同比例的矩形中,您可以快速可视化每个类别的分布。

这是一个用像你这样的模拟数据制作的图。最上面的图片在一个地块上有所有六个类别,就像你的一样。底部图像将每个类别分成具有共同比例的自己的直方图。您可以更轻松地比较这六个类别。

一个堆叠直方图上六个类别的模拟数据

分面直方图上六个类别的模拟数据