可视化和过度绘图:替代散点图

机器算法验证 数据可视化
2022-03-02 12:32:41

我有大量拥挤的国家数据(如下所示),但我需要标签和异常值——我还有很多图表,所以重置窗口并添加错误数据点会很乏味对于异常值。

在这种情况下,有没有更好的散点图替代方法?我真的很想做一张地图,但我需要显示的有序对的两个部分。

在此处输入图像描述

2个回答

我几个月前制作的这个情节展示了几种技术。

  1. 只标记“有趣”的点,并依靠悬停标签来按需识别其他点。这需要人工干预才能做得很好,尽管软件可以接近启发式方法,例如仅在标签可以不重叠地显示时才显示标签。

  2. 转换比例,例如使用对数或分位数。这里需要注意的是,规模不再与我们的感知直接一致。观众必须牢记这种转变。

在此处输入图像描述

其他选项:

  1. 使用格子或小倍数也就是说,显示一系列图表,每个图表都有一个点的子集,例如您所在国家/地区数据的每个区域的一个图表。

  2. 使用链接的单变量图表,例如条形图或点图,以便标签位于轴中。如果您可以交互地按任一变量排序,这将很有帮助。

在此处输入图像描述

如果您想要替代散点图,那么平行坐标图可能会起作用,特别是当您试图显示许多变量之间的关系时。您“有很多图表”,平行坐标图可能可以将其减少到一个!这是著名的Iris 数据集的示例,取自 Wikipedia(图片来源):

虹膜数据的平行坐标图

该图非常清楚地显示了物种之间的差异。您可以选择按地理区域或发展水平进行着色。我们可以看到根据萼片宽度区分这三个物种是多么困难,但它们的花瓣长度有更多的分离。经过一番心理调整(我们的眼睛可能过于训练而无法寻找“向上倾斜”),花瓣宽度和花瓣长度之间显然存在正相关关系,因为较高的花瓣宽度与较高的花瓣长度相关联。花朵位于刻度的顶部,而另一朵的花朵往往位于刻度的顶部——这表现为轴之间大致平行的线。另一方面,萼片宽度和萼片长度之间存在负相关,

该图像设法捕获整个散点图矩阵中可用的大部分信息(图像信用):

虹膜数据的散点矩阵

积极的一面是,平行轴图使我们能够在所有测量变量中跟踪一个人:如果我们在两个独立的散点图上看到两个有趣的点,尤其是离群值,它们是否代表同一个人可能并不明显,但在一个平行轴图,我们可以“跟随线程”。不利的一面是,放弃所有这些散点图会丢弃有关多元关系的信息。最明显的是,我们无法如此清楚地看到聚类的一些细节(尽管注意 Nick Cox 建议使用平行坐标图来研究“深度”聚类如何通过变量),并且线性区分的可能性完全被掩盖了。此外,在平行坐标图中很难看到相距很远的轴之间的相关性,

如果你有互动的选项,而不是静态可视化,然后平行坐标图为您提供了一些解决此问题的选项。例如,用户可以切换轴的顺序,将变量彼此相邻放置,以更清楚地查看感兴趣的关系。因为正相关和负相关在平行坐标图中表现得如此不同,所以能够翻转轴很有帮助(如果你反转与相邻轴负相关的轴的方向,那么它们之间的线会“解开” )。即使在静态图上,反转轴以产生尽可能多的正相关也是最有效的,并且对轴进行排序以使连续相关尽可能强,因为很难通过缠结跟踪一条线(参见 Nick Cox on这点)。

也许最重要的交互功能是刷和链接:用户可以选择例如基于一个变量的个人的上四分位数,并且他们的线条在整个情节中自动突出显示。如果在另一个轴上,主要围绕顶部的点被突出显示,那么这表明正相关(但我们应该检查下四分位数与第二个变量底部周围的点相关联);如果大部分在底部附近的点被突出显示,则表明负相关;如果突出显示随机散布在轴上的一系列点,则表明相关性很小。

鉴于您所包含的国家/地区的数量,除非您的空间限制异常大,否则似乎很难在任何地块上将它们全部标记。您可能不得不满足于只突出最重要的个别国家。在交互式可视化中,悬停标签可以避免混乱(正如@xan 指出的那样),也许您可​​以允许用户突出显示给定区域(或其他一些分组)中可能会自动显示其标签的所有国家/地区。

如果您只使用有限数量的标签,您可能会考虑将它们放在轴上。如果您查看 Edward Tufte 的The Visual Display of Quantitative Information,第 7 章:多功能图形元素,您会发现这与 Tufte 提出的政府税收收据“表格图形”的建议非常相似(可能更熟悉你是一个“斜线图”)。每个轴都变成了一种排名表,这是一个不错的功能。(这些方法之间存在一些差异,特别是因为 Tufte 的示例表格图形在每个轴上使用相同的单位和比例,而不是对数据进行归一化以适应,并且由于他的“轴”代表了更早和更晚的时间段,因此斜率有一个额外的解释作为增长率。这些解释通常不适用于平行坐标图,但每个轴上的排名表的想法确实如此。)

链接和参考