数据挖掘 - 数据集大小的过拟合/欠拟合 - 吾爱随笔录

数据集大小的过拟合/欠拟合

数据挖掘机器学习交叉验证

2021-10-01 05:32:02

在下图中，

x 轴 =>数据集大小
y 轴 =>交叉验证分数

红线是训练数据
绿线是测试数据

在我所指的教程中，作者说红线和绿线重叠的点意味着，

收集更多数据不太可能提高泛化性能，而且我们所处的区域可能无法拟合数据。因此，尝试使用容量更大的模型是有意义的

我不能完全理解粗体短语的含义以及它是如何发生的。

感谢任何帮助。

4个回答

因此，欠拟合意味着您仍然有能力提高学习能力，而过拟合意味着您使用了超出学习所需的容量。

绿色区域是测试错误上升的地方，即您应该继续提供容量（数据点或模型复杂性）以获得更好的结果。绿线越多，它变得越平坦，即您正在达到提供的容量（即数据）足够并且更好地尝试提供其他类型的容量即模型复杂性的点。

如果它没有提高你的测试分数甚至降低它，这意味着数据复杂性的组合在某种程度上是最优的，你可以停止训练。

虽然 Kasra Manshaei 给出了一个很好的一般答案（+1），但我想举一个易于理解的例子。

想一个很简单的问题：拟合一个函数 $f:[0, 1] \rightarrow \mathbb{R}$ . 为此，您需要从多项式类中取出一个模型。为了论证，假设您采用 0 次多项式。该模型的容量非常有限，因为它只能拟合常数。它基本上会猜测平均值（当然，取决于误差函数，但要保持简单）。所以相对较快，您将对这种模型的最佳参数有一个很好的估计。无论您添加多少示例，您的测试和训练错误都将几乎相同。问题不在于您没有足够的数据，问题在于您的模型不够强大：您欠拟合。

所以让我们反过来：假设你有 1000 个数据点。知道一点数学，你选择一个 999 次的多项式。现在你可以完美地拟合训练数据。但是，您的数据可能过于完美地拟合数据。例如，参见（来自我的博客）

在这种情况下，您还有其他模型也可以完美拟合数据。显然，蓝色模型在数据点之间似乎有点不自然。模型本身可能无法很好地捕捉这种分布，因此将模型限制为更简单的东西实际上可能会有所帮助。这可能是过拟合的一个例子。

在您的情况下，您有 - 训练曲线和测试曲线之间的间隙非常小（或没有），表明模型具有高偏差/欠拟合，解决方案：需要选择更复杂的模型；- 为了完成，当训练曲线和测试曲线之间的差距非常大，表明高方差/过拟合时，需要添加相反的情况，解决方案：a）继续增加数据集大小；b) 选择不太复杂的模型，c) 进行正则化。

您可以执行以下任何/所有操作：

1）更改您输入模型的功能

2）选择不同的模型来使用

3）将更多数据加载到模型中（可能不适合您，但通常这是一个选项）

其它你可能感兴趣的问题

上一篇哪一个先：算法基准测试、特征选择、参数调整？下一篇使用早期停止和交叉验证的正确方法是什么？