对离散数据使用线图是错误的吗?

机器算法验证 数据可视化
2022-03-16 06:32:59

我经常看到将离散数据集绘制为线图,但在我看来,这条线在测量间隔之间的某个点处推断出一个值,这对于离散数据集毫无意义。因此,使用离散数据的线图是错误的吗?

例如,采用两个时间序列数据集,一个是连续的(我的体重,每天早上测量),一个是离散的(我每天吃的甜甜圈数量)。第一个数据集是线图是有道理的,因为可以合理地推断我在任何给定下午的体重都将与我前后早晨的体重相关。但是,如果将甜甜圈的数量表示为折线图,则点之间的线无法从该线推断出任何含义。

编辑

这是另一个示例:自成立以来的联邦每小时最低工资图,位于http://mste.illinois.edu/courses/ci330ms/youtsey/lineinfo.html

除非我弄错了,否则最低工资的变化是离散的,因此不可能查找一些任意选择的时间并使用连接点的线在该点确定最低工资。

2个回答

事实证明,连接线图非常有用,无法仅限于单一解释。几个突出的用途:

  • 插值您提到的情况是两个变量都是连续的,并且沿线的每个插值点都是有意义的解释。
  • 变化率即使中间值没有意义,每条线段的斜率也能很好地表示变化率。请注意,对于这种解释,X 和 Y 值必须适当间隔,而您引用的工资图中并非如此。
  • 配置文件比较在比较小的倍数或重叠测量时,线条甚至对于分类因素也很有用。在这种情况下,线条用于连接响应组以进行有限的模式识别。以下是peltiertech.com的示例,其中 Y(而不是 X)轴上的因子用于标签可读性:

在此处输入图像描述

好吧,甜甜圈可能与重量有关:-)

虽然我明白你的观点,但我认为这个例子还不错,因为时间(在水平轴上,即线条所指的)是连续的。对我来说,这条线的含义并不是说,在一天中的每个时间你都吃了一定数量的甜甜圈,而是每天甜甜圈的数量以某种有规律的方式变化。因此,我们可能会在线条上添加类似黄土平滑器的东西,这将是有意义的。考虑每小时甚至每分钟吃的甜甜圈至少是合理的(尽管这对于每天计数较高的变量会更明智)

更令人担忧的是当水平轴是离散的(特别是当它是标称的时)但绘制了线条。这真的没有意义。例如,如果您正在查看(例如)美国不同地区(例如)居民对奥巴马的投票率,那么在东北部和中西部之间划清界限是没有意义的;特别是因为区域的顺序是任意的,但改变顺序会改变线条。然而我见过这样的图表。