我同意该图表在某种意义上具有误导性,它旨在表明象限中没有数据点被明确描述为高离职率,高毕业生百分比。高低是相对于轴限制的,而不是实际数据。虽然理论上可能有一个人口 100% 受过大学教育的病房,但这样的病房并不存在。您无需发明数据点来生成误导性图表:显示夸大变化的断轴就是一个与此相似的示例。
可视化此数据的更客观方法是将散点图轴限制设置为数据的最大值/最小值,然后将图表划分为相等面积的象限。
我会选择相等面积的象限的原因是象限显示变量之间的等效线性关系。象限的分类描述“高”和“低”被视为等效,因此区域也应如此。
相反,如果我们想使用象限作为定量描述数据的另一种方式,我们可以将象限边界设置为每个变量的平均值,如 Data Visualization with R: 100 examples 所示(可在 Google Books 上预览,p283,286)。
要向散点图可视化添加另一个分析层,我们可以使用点的颜色和大小。例如,颜色可用于将大学城与其他城市区分开来,以渐变方式显示选民投票率或突出显示这些选区的大选结果。我不确定大小是否对这么多数据点有效,但您可以研究不同的人口范围,例如 65 岁以上,以及它们在数据中的表示方式。
在我看来,在查看此图表时,还有两个重要的警告值得牢记:首先,它计算了所有毕业生,无论他们是否在公投中投票;其次,它包括持有欧盟护照的居民毕业生,他们无法在公投中投票(假设源数据是基于人口普查的)。