用线性插值连接散点图?

机器算法验证 数据可视化 散点图 插值
2022-04-08 01:55:36

鉴于决定在散点图上连接数据点(例如,假设我们谈论的是每周上课的学生),用直线连接散点图还是用圆线连接散点图是否更正确(单调插值)。

我的问题主要是单调插值是否错误,因为我个人的理解是两者都同样错误。

所以,我要说的是:

在此处输入图像描述

相对

在此处输入图像描述

连接散点图的原因既是视觉上的,也是因为我们可以同时显示多个系列,所以它比带有多个彩色条的条形图更能传达什么。

1个回答

按照你的例子,我会用时间来描述这个x或横轴:这很容易想象和讨论,并且(我猜)是这个问题在实践中最常见的例子。转换到该轴上的其他变量,例如空间位置,似乎很简单(直到有人指出复杂性)。

在您的问题中似乎默认的是,在任何给定时间最多可能有一个值。也就是说,我将任何类型的摘要或平滑问题放在一边,生成某种摘要{y|x} 可能有几个值y在任何一个x.

原则上是有区别的

  1. 在所有可能的时间进行测量(例如每节课的出勤率)

  2. 在某些可能的时间进行测量(例如在某些时间进行温度或压力测量),以便在其间可以观察到其他值;它们只是不包含在数据中。

对于#1 直线连接,我建议,主要是为了心理支持,以帮助心理掌握整个系列,包括一般模式(例如趋势)和特定细节(例如尖峰)。如果读者不清楚,或者有人反对它,认为它毫无意义,则只需要进行大量讨论或辩护。

由于未定义观察时间之间的值,因此连接线没有任何意义用于插值(通常线连接是一个图形选项或设置,不需要对插值程序进行任何调用,但使用软件的哪个部分是实现细节。)

就我个人而言,我不喜欢这种情况下的非线性连接(就问题而言是圆形曲线),但我认为它的辩护也是一种心理支柱。我在学生报告中发现它,不请自来,并收集到它以某种方式在 MS Excel 中提供。但是错误这个词似乎太强烈了。如果反对意见是没有证据支持已知数据点之间的非线性变化,那么同样的反对意见也适用于线性变化。因此,这个问题似乎更多是审美偏好或对简单的诉求,而不是强烈的统计或科学论据。

不管非线性连接的理由是什么,我建议最好在论文、报告和书籍中解释它,至少是定性的,比如提到样条或多项式插值或其他方法。每当研究人员无法解释曲线是如何产生的时,就会令人不安。相比之下,线性连接似乎不需要任何评论,就像在早期的益智书籍和学校教育中所熟悉的那样。

对于#2 插值是有意义的,因为我们已经将其定义为可以在数据之间进行进一步观察的情况。即使决定线性插值与您想考虑的一样多,这与其他任何事情一样都是品味问题。更有趣的是,使用多于两侧的数据点进行插值也是有意义的,在这种情况下,插值不必是线性的。(同样,这可以分级为平滑。)

但很大程度上取决于细节。

第一个例子:大多数国家的人口增长可以被视为在幅度和时间上是连续的(忘记我们所知道的人们是离散的)。因此,它可以在人口普查或估计日期之间进行插值,但即便如此,季节性也可能是一个细节。合理的插值通常——实际上通常——根本不是线性的。

第二个例子:如果每天只测量一次空气或地面温度(直到 20 世纪都是惯例),那么原则上更精细的插值是可能的,因为温度基本上是连续变化的,但实际上几天内的插值将毫无意义,除非它反映日常供暖和制冷。

我对什么是线性和什么是单调的问题可能混淆感到困扰,因为局部线性插值也必然是局部单调的,并且您显示的曲线有转折点。

有一些有吸引力的插值方法可以结合三次样条行为与原始数据中的最大值和最小值有关。结果在给定的转折点之间是单调的,但不一定是线性的。在 MATLAB 术语中,Cleve Moler(例如此处)很好地解释了 pchip(分段三次 Hermite 插值)就是这样一种方法。我会报告说,Moler 的 MATLAB 代码非常便携,即使你像我一样不使用 MATLAB。