数据集大小的过拟合/欠拟合

数据挖掘 机器学习 交叉验证
2021-10-01 05:32:02

在下图中,

  • x 轴 =>数据集大小
  • y 轴 =>交叉验证分数

在此处输入图像描述

  • 红线是训练数据

  • 绿线是测试数据

在我所指的教程中,作者说红线绿线重叠的点意味着,

收集更多数据不太可能提高泛化性能,而且我们所处的区域可能无法拟合数据。因此,尝试使用容量更大的模型是有意义的

我不能完全理解粗体短语的含义以及它是如何发生的。

感谢任何帮助。

4个回答

因此,欠拟合意味着您仍然有能力提高学习能力,而过拟合意味着您使用了超出学习所需的容量。

绿色区域是测试错误上升的地方,即您应该继续提供容量(数据点或模型复杂性)以获得更好的结果。绿线越多,它变得越平坦,即您正在达到提供的容量(即数据)足够并且更好地尝试提供其他类型的容量即模型复杂性的点。

如果它没有提高你的测试分数甚至降低它,这意味着数据复杂性的组合在某种程度上是最优的,你可以停止训练。

虽然 Kasra Manshaei 给出了一个很好的一般答案(+1),但我想举一个易于理解的例子。

想一个很简单的问题:拟合一个函数 F[0,1]R. 为此,您需要从多项式类中取出一个模型。为了论证,假设您采用 0 次多项式。该模型的容量非常有限,因为它只能拟合常数。它基本上会猜测平均值(当然,取决于误差函数,但要保持简单)。所以相对较快,您将对这种模型的最佳参数有一个很好的估计。无论您添加多少示例,您的测试和训练错误都将几乎相同。问题不在于您没有足够的数据,问题在于您的模型不够强大:您拟合。

所以让我们反过来:假设你有 1000 个数据点。知道一点数学,你选择一个 999 次的多项式。现在你可以完美地拟合训练数据。但是,您的数据可能过于完美地拟合数据。例如,参见(来自我的博客

在此处输入图像描述

在这种情况下,您还有其他模型也可以完美拟合数据。显然,蓝色模型在数据点之间似乎有点不自然。模型本身可能无法很好地捕捉这种分布,因此将模型限制为更简单的东西实际上可能会有所帮助。这可能是过拟合的一个例子。

在您的情况下,您有 - 训练曲线和测试曲线之间的间隙非常小(或没有),表明模型具有高偏差/欠拟合,解决方案:需要选择更复杂的模型;- 为了完成,当训练曲线和测试曲线之间的差距非常大,表明高方差/过拟合时,需要添加相反的情况,解决方案:a)继续增加数据集大小;b) 选择不太复杂的模型,c) 进行正则化。

您可以执行以下任何/所有操作:

1)更改您输入模型的功能

2)选择不同的模型来使用

3)将更多数据加载到模型中(可能不适合您,但通常这是一个选项)