这张 BBC 图表(英国脱欧教育与成绩之间的相关性)应该如何绘制?

机器算法验证 数据可视化 媒体统计
2022-03-22 11:42:34

BBC分析了更多脱欧公投数据;他们文章中的第一个图表引起了我的注意:

在此处输入图像描述

将 x 轴拆分为 50% 似乎很奇怪。当然,这应该在数据的中位数处进行拆分?(或者如果数据是正态分布的平均值;但是眯着眼睛看,这里似乎不是这种情况。)

(他们还没有公布他们的数据,但一个快速的谷歌表明毕业生约占成年人口的 25%,这与目测图表相匹配,所以我会继续这样做。)

但这让我想到了如何尽可能客观地绘制这张图表。保持x轴直线,让右边的两个框宽三倍会更好吗?或者保持所有框的大小相同,并挤压和拉伸 x 轴,以便每个 N 像素跨度覆盖相同数量的数据点?或者是其他东西?

4个回答

我同意将象限着色为粉红色主要是为了美观,但总的来说,我认为这是一个清晰的信息图。该信息立即显而易见,没有误导性。英国广播公司已经绘制了实际数据点。他们没有操纵 x 或 y 轴。图上的注释是正确的,没有夸大其词。他们没有添加虚假的趋势线或任何其他不必要的解释。与媒体中呈现的大多数数据图相比,这个图非常出色——它是让数据自己说话的一个很好的例子。简而言之,我认为你想多了。我不怀疑你可以找到一些改进情节的方法,但简单通常是最好的。

我同意该图表在某种意义上具有误导性,它旨在表明象限中没有数据点被明确描述为高离职率,高毕业生百分比。高低是相对于轴限制的,而不是实际数据。虽然理论上可能有一个人口 100% 受过大学教育的病房,但这样的病房并不存在。您无需发明数据点来生成误导性图表:显示夸大变化的断轴就是一个与此相似的示例。

可视化此数据的更客观方法是将散点图轴限制设置为数据的最大值/最小值,然后将图表划分为相等面积的象限。

我会选择相等面积的象限的原因是象限显示变量之间的等效线性关系。象限的分类描述“高”和“低”被视为等效,因此区域也应如此。

相反,如果我们想使用象限作为定量描述数据的另一种方式,我们可以将象限边界设置为每个变量的平均值,如 Data Visualization with R: 100 examples 所示(可在 Google Books 上预览,p283,286)。

要向散点图可视化添加另一个分析层,我们可以使用点的颜色和大小。例如,颜色可用于将大学城与其他城市区分开来,以渐变方式显示选民投票率或突出显示这些选区的大选结果。我不确定大小是否对这么多数据点有效,但您可以研究不同的人口范围,例如 65 岁以上,以及它们在数据中的表示方式。

在我看来,在查看此图表时,还有两个重要的警告值得牢记:首先,它计算了所有毕业生,无论他们是否在公投中投票;其次,它包括持有欧盟护照的居民毕业生,他们无法在公投中投票(假设源数据是基于人口普查的)。

我认为这个类似数据的 FT 版本是关于如何公平地呈现数据的一个不错的答案。

在此处输入图像描述

它不是 0 - 100 范围内的绝对值,而是放大以关注变化。这些线条有助于验证由于所有过度划线而仅凭点难以评估的模式。(你能在原版中找出 1070 个病房中的几个?)

我同意,非常误导。我会一起消除彩色背景。

如果你坚持给它上色,也许是与人口密度相对应的渐变?也就是说,随着更多病房属于“受过教育与离开”类别,背景颜色会变暗

肯定有一种趋势,我认为没有人会反对——也许作者应该坚持某种趋势线?