外推与插值

机器算法验证 术语 插值 外推
2022-01-26 22:24:19

外推法和插值法有什么区别,使用这些术语的最精确方法是什么?

例如,我在一篇论文中看到了使用插值的声明:

“该程序在 bin 点之间插入估计函数的形状”

一个同时使用外推和插值的句子是,例如:

上一步我们使用内核方法将插值函数外推到左右温度尾部。

有人可以提供一种清晰简单的方法来区分它们并通过示例指导如何正确使用这些术语吗?

4个回答

要对此添加视觉解释:让我们考虑您计划建模的几个点。

在此处输入图像描述

它们看起来可以用直线很好地描述,因此您可以对它们进行线性回归:

在此处输入图像描述

此回归线允许您进行插值(在数据点之间生成预期值)和外推(在数据点范围之外生成预期值)。我用红色突出了外推,用蓝色突出了最大的插值区域。需要明确的是,即使是点之间的微小区域也会被插值,但我在这里只强调大的区域。

在此处输入图像描述

为什么外推通常更受关注?因为您通常不太确定数据范围之外的关系形状。考虑当您收集更多数据点(空心圆圈)时可能发生的情况:

在此处输入图像描述

事实证明,你的假设关系并没有很好地捕捉到这种关系。外推区域的预测还差得很远。即使您猜到了正确描述这种非线性关系的精确函数,您的数据也没有扩展到足够的范围以使您能够很好地捕捉非线性,因此您可能仍然相距甚远。请注意,这不仅是线性回归的问题,而且是任何关系的问题——这就是外推被认为是危险的原因。

由于拟合中缺乏非线性,插值区域中的预测也是不正确的,但它们的预测误差要低得多。不能保证您的点之间不会有意外的关系(即插值区域),但通常不太可能。


我要补充一点,外推并不总是一个糟糕的主意——如果你在数据范围之外进行一点点外推,你可能不会错(尽管有可能!)。没有良好的世界科学模型的古人,如果他们预测第二天和后天太阳会再次升起,也不会大错特错(尽管在遥远的未来一天,即使这样也会失败)。

指数增长的简单短期外推已经相当准确。如果你是一个没有科学专业知识但想要一个粗略的短期预测的学生,这会给你相当合理的结果。但是,您推断的数据离您的数据越远,您的预测就越有可能失败,并且灾难性地失败,正如在这个伟大的线程中很好地描述的那样:推断有什么问题?(感谢@JMisnotastatistician 提醒我这一点)。2

根据评论进行编辑:无论是插值还是推断,最好有一些理论来支持预期。如果必须进行无理论建模,则插值的风险通常小于外插的风险。也就是说,随着数据点之间的差距越来越大,插值也变得越来越充满风险。

本质上,插值数据支持内或现有已知数据点之间的操作;外推超出数据支持的否则,标准是:缺失值在哪里?

造成这种区别的一个原因是,外推通常更难做好,甚至是危险的,如果不实际的话,在统计上也是如此。这并不总是正确的:例如,河流洪水可能会淹没测量流量甚至水位(垂直水位)的手段,从而在测量记录中撕裂一个洞。在这些情况下,放电或阶段的插值也很困难,并且在数据支持范围内也无济于事。

从长远来看,质变通常会取代量变。大约在 1900 年,人们非常担心马车交通的增长会淹没城市,其中大部分是不需要的粪便。排泄物的指数被内燃机及其不同的指数所取代。

趋势是趋势是趋势,
但问题是,它会弯曲吗? 它会通过一些不可预见的力量
改变它的路线 并过早结束吗?

——亚历山大·凯恩克罗斯

Cairncross, A. 1969。经济预测。经济杂志,79:797-812。doi:10.2307/2229792(引用第 797 页)

TL;DR 版本:

  • 插值发生在现有数据点之间。
  • 额外的极化发生在他们之外。

助记符:插值 = >侧面

FWIW:前缀inter- 表示介于 之间extra- 表示超出还可以考虑在州际公路或来自地球以外的外星人的州际公路。

例子:

研究:想要对 6-15 岁女孩的身高进行简单的线性回归。样本量为 100,年龄按(测量日期 - 出生日期)/365.25 计算。

数据收集后,模型拟合并得到截距 b0 和斜率 b1 的估计值。这意味着我们有 E(height|age) = b0 + b1*age。

当您想要 13 岁的平均身高时,您会发现 100 个女孩的样本中没有 13 岁的女孩,其中一个是 12.83 岁,一个是 13.24。

现在将年龄 = 13 代入公式 E(height|age) = b0 + b1*age。它被称为插值,因为 13 岁被用于拟合模型的数据范围所覆盖。

如果您想获得 30 岁的平均身高并使用该公式,这称为外推,因为 30 岁超出了您的数据涵盖的年龄范围。

如果模型有多个协变量,则需要小心,因为很难绘制数据覆盖的边界。

在统计学中,我们不提倡外推。