为什么局部平均(包括 KNN)不经常用于回归?

数据挖掘 机器学习 统计数据 线性回归 k-nn
2022-01-31 22:42:54

我的教授说“回归的圣杯”是函数 E(Y|X=x) 即 Y 对 X 的条件期望。在实践中,你会取 X 的一个小窗口并取 Y 的平均值对于位于窗口中的所有观察。

教授说这基本上是你能做出的最好的预测,但我们通常不会这样做,因为维度诅咒在预测变量数很大时会降低其有效性。所以看起来局部平均(KNN 回归是这种类型的一种)在预测变量很少的情况下很好。然而,在大多数文章和统计类中,我总是看到即使在低维度中也使用线性回归。为什么不经常使用局部平均?

2个回答

局部平均回归是比简单的线性回归复杂得多的模型,因为它是许多单独的较小模型的混合。局部回归实际上在文献中非常流行,并且已经过广泛的测试。

局部回归模型需要大量密集的采样数据集,这对于统计学生来说并不常见。如果您没有要建模的复杂关系,您可能不需要它。

实际上,局部平均会使用更多的内存,尤其是当预测变量的数量激增时,会使测试集的预测变慢。这是 KNN 回归器的主要警告。希望能帮助到你!