如何随着时间的推移可视化分类数据?

数据挖掘 可视化
2021-09-26 17:53:14

我正在可视化实验室测试的结果。这些结果中的大多数都是数字的,因此可以使用折线图轻松传达,其中 x 轴是时间,y 轴由可能值的范围决定,例如[0, 100].

编辑:要清楚,我不是在测量频率。随着时间的推移,我正在显示个人针对一项特定测试(如胆固醇)的实验室测试结果。由于大多数人一年不会进行超过 1 或 2 次实验室测试,因此大多数人的图表将包含少于一打 (x,y) 值。

当 y 轴值是分类时,我不太确定如何可视化此信息:

  • 有时可能的值本身就是范围。测试值类似于2-6,这意味着该值介于 2 和 6 之间——这就是我们需要知道的全部内容。用误差线之类的东西绘制这些值是否有意义或者将范围的平均值(在本例中为 4)绘制为常规折线图是否更有意义?

  • 其他类型涉及非数字类别。有时这些是序数。在序数情况下,类别可能类似于[none, few, moderate, many]. [0, 1, 2, 3]只为每个索引分配一个索引并使用标准折线图是否有意义?如果不是,什么更有意义?

  • 最后,非数字的名义类型。这些是没有明确等级层次结构的类别,例如颜色:[yellow, orange, red]. 在这种情况下,我认为使用标准折线图可能会产生误导,因为它暗示某些颜色比其他颜色“更高”或“更好”。什么是合适的?

2个回答

我会试一试,但很大程度上取决于你想如何传达你的结果。

  1. 尝试保留存储桶,并为它们添加计数,因此您最终会得到如下结果:
date bucket count
2015-09-11 2-6 6
2015-09-12 2-6 9
2015-09-13 2-6 2
2015-09-11 10-16 9
2015-09-12 10-16 15
2015-09-13 10-16 4

您可以通过折线图进行交流,但我会使用每个周期并排的条形图,可能会根据您的时间线汇总到周或月。如果您有很多范围,请将它们拆分为不同的图表。

  1. 不要索引序数值。图表的读者不应该看其他地方来弄清楚数字的含义。只需将计数与序数一起使用,并使用折线图或条形图、汇总表或交叉(表)

  2. 计算出现次数并使用并排或堆叠条形图,并根据您拥有的颜色为条形着色。但是人类的感知总是会比较小/较低的条/线/区域赋予更高的权重。或者只是将其表示为表格。这样你就不会给出任何意见,除非某些颜色可能比其他颜色更频繁地出现。

X 和 Y、大小、纹理、形状、方向、颜色是数据可视化的一些常见编码。其中一些有隐含订单(X 和 Y,尺寸)。在您的情况下,我觉得您可能会使用无序编码,例如颜色。

FYR。以下网站有一个相当全面的解释。 https://www.safaribooksonline.com/library/view/designing-data-visualizations/9781449314774/ch04.html