在数据科学讨论中,我一直在使用诸如欠拟合/过拟合和偏差方差权衡之类的术语,我知道欠拟合与高偏差相关,而过拟合与高方差相关。但是这种关联的原因是什么,或者就模型而言,什么是高偏差和高方差,如何直观地理解它?
为什么欠拟合称为高偏差,而过拟合称为高方差?
怎么能直观地理解呢?
欠拟合被称为“简化假设”(模型对其假设高度偏向)。您的模型会认为线性超平面足以对可能不正确的数据进行分类。假设你看到一张猫的照片 1000 次,现在你被蒙上眼睛,无论你第 1001 次显示什么,你会说猫的概率非常高(你非常有偏见,下一张照片也是猫)。这是因为你相信它无论如何都会成为一只猫。在这里,您正在简化假设
在统计中,方差非正式地表示您的数据分布的范围。过度拟合是您为考试记住了 10 个 qns,而在第二天的考试中,您阅读的 10 个问题在试卷中只问了一个问题。现在您将像书中一样正确回答一个问题,但您不知道剩下的问题是什么(问题与您阅读的内容有很大差异)。在过拟合中,模型会记住整个训练数据,这样它会在训练上提供很高的准确度,但会在测试中陷入困境。希望它有帮助
让我们假设我们的模型描述为 , 和 . 让进一步是我们的回归函数,即参数是最小化损失的函数(无论这个损失是什么)。给定一个新的观察,模型的预期误差为
现在,为了这个例子,考虑一个非常复杂的模型(例如,一个具有许多参数或类似参数的多项式),您正在针对训练数据进行拟合。由于存在这么多参数,它们可以非常接近地适应训练数据以平均化(因为它们有很多);结果,偏置项大大减少。但另一方面,通常情况下,只要你有很多参数,它们的最小二乘估计就会有很大的方差:正如已经提到的,由于它们已经深入适应了训练数据,它们可能无法很好地概括新的看不见的数据。由于我们有许多参数(复杂模型),每个参数中的一个小误差加起来就是整体预测中的一个大误差。
当一个模型非常静态(假设参数很少)时,可能会发生相反的情况:它们的方差加起来并不多(因为它们很少),但权衡是它们对均值的估计可能与回归量的真实值不紧密对应。
在文献中,将前者称为过拟合,将后者称为欠拟合。在我给出的描述中,您可以看到它们可能与模型的复杂性有关,但不一定如此,即您也可能拥有不一定过度拟合的特别复杂的模型(由于它们的构造方式,一个最重要的是随机森林)和不一定欠拟合的简单模型(例如,当数据实际上是线性时的线性回归)。
查看 Brando Miranda 在以下 Quora 问题中提供的答案:
“高方差意味着您的估计器(或学习算法)根据您提供的数据而有很大差异。”
“欠拟合是“相反的问题”。欠拟合通常是因为你希望你的算法有点稳定,所以你试图以某种方式过多地限制你的算法。这可能会使它对噪声更鲁棒,但如果你也限制它“它可能会错过你的数据告诉你的合法信息。这通常会导致糟糕的训练和测试错误。通常,欠拟合也是由于你的模型偏差过大造成的。”
基于简单假设(有偏差)的模型可能对数据的拟合效果很差(拟合不足),而更复杂、更灵活、变化更大的模型可能非常适合训练数据(过拟合),以至于它变得不太擅长预测新数据。