如何使用非参数回归进行预测?

机器算法验证 回归 交叉验证 预测模型 非参数 非线性回归
2022-03-04 16:38:30

假设我有一个数据集,我使用非参数回归估计了一个关系,特别是内核(显然在这个假设的例子中它可能稍微过拟合)。数据集从 x = 0 到 x = 4。我将如何推断并找到 x = 4.2 的 y 值?

我是否可以简单地扩展回归的最后一条连接线,如下图所示?或者这是不正确的?

我想这样做的原因是因为我想计算 LOOCV - 这涉及依次省略每个数据点,我不清楚当我省略第一个最后一个或一个范围内的数据点时该怎么做。

在此处输入图像描述

(请注意,这只是随机生成的数据,用于说明目的)。

谢谢

编辑1:强调询问的原因。

2个回答

你不能。从广义上讲,机器学习模型学习在数据点之间进行插值。在这里你试图推断,推断很困难,很容易出错如果您使用一个简单的模型,例如线性回归,那么很容易推断并且相当容易评估结果可能有多糟糕。如果您使用的是更复杂的模型,比如多项式回归,那么就像下面发布的xkcd 漫画的摘录一样,它可能会变得任意糟糕。

拟合数据的多项式曲线非常错误。

随机森林或内核回归等模型只能在数据点之间进行插值。要在数据之外进行推断,您可以使用最后看到的斜率(就像您在问题所附的图中所做的那样),或者仅使用对最后一个已知点 (x=4) 的预测作为上述所有内容的预测。这种简单的推断方法通常用于时间序列,如果您没有太多数据,则可能是首选方法两种解决方案都相当武断,没有好的答案。

通常我已经看到通过向前延伸最后一条线来完成,尽管这显然是非常危险的,因为局部拟合的性质和端点附近的极值。

可能有一些先进的技术,或者您可以从时间序列文献中记下一些笔记并“抑制”最后一行或将其与趋势的全局度量相结合。因此,您使用最后一条线与简单回归的总体斜率或其他东西进行平均,以尝试使您的最后一个局部测量保持一致。这些都是现成的建议,但无论您做什么,将其扩展至适合的 x 值范围之外都是可能的,但很危险。