数据集大小的过拟合/欠拟合
因此,欠拟合意味着您仍然有能力提高学习能力,而过拟合意味着您使用了超出学习所需的容量。
绿色区域是测试错误上升的地方,即您应该继续提供容量(数据点或模型复杂性)以获得更好的结果。绿线越多,它变得越平坦,即您正在达到提供的容量(即数据)足够并且更好地尝试提供其他类型的容量即模型复杂性的点。
如果它没有提高你的测试分数甚至降低它,这意味着数据复杂性的组合在某种程度上是最优的,你可以停止训练。
虽然 Kasra Manshaei 给出了一个很好的一般答案(+1),但我想举一个易于理解的例子。
想一个很简单的问题:拟合一个函数 . 为此,您需要从多项式类中取出一个模型。为了论证,假设您采用 0 次多项式。该模型的容量非常有限,因为它只能拟合常数。它基本上会猜测平均值(当然,取决于误差函数,但要保持简单)。所以相对较快,您将对这种模型的最佳参数有一个很好的估计。无论您添加多少示例,您的测试和训练错误都将几乎相同。问题不在于您没有足够的数据,问题在于您的模型不够强大:您欠拟合。
所以让我们反过来:假设你有 1000 个数据点。知道一点数学,你选择一个 999 次的多项式。现在你可以完美地拟合训练数据。但是,您的数据可能过于完美地拟合数据。例如,参见(来自我的博客)
在这种情况下,您还有其他模型也可以完美拟合数据。显然,蓝色模型在数据点之间似乎有点不自然。模型本身可能无法很好地捕捉这种分布,因此将模型限制为更简单的东西实际上可能会有所帮助。这可能是过拟合的一个例子。
在您的情况下,您有 - 训练曲线和测试曲线之间的间隙非常小(或没有),表明模型具有高偏差/欠拟合,解决方案:需要选择更复杂的模型;- 为了完成,当训练曲线和测试曲线之间的差距非常大,表明高方差/过拟合时,需要添加相反的情况,解决方案:a)继续增加数据集大小;b) 选择不太复杂的模型,c) 进行正则化。
您可以执行以下任何/所有操作:
1)更改您输入模型的功能
2)选择不同的模型来使用
3)将更多数据加载到模型中(可能不适合您,但通常这是一个选项)