数据挖掘 - 对这个“学习曲线”图有什么好的解释？ - 吾爱随笔录

数据挖掘机器学习分类助推

2021-09-20 06:29:07

我阅读了关于validation_curve以及如何解释它以了解是否存在过度拟合或欠拟合的信息，但是当数据是这样的错误时如何解释该图：

谢谢

2个回答

X 轴是训练集中实例的数量，所以这个图是一个数据消融研究：它显示了不同数量的训练数据会发生什么。
Y 轴是一个错误分数，因此较低的值意味着更好的性能。
在图的最左侧，在大约 6000 个实例之前，训练集上的误差为零这一事实表明过度拟合，而训练和验证之间误差的巨大差异证实了这一点。
在图表的右半部分，性能差异开始减小，验证集的性能似乎趋于稳定。训练误差大于零的事实是好的：这意味着模型开始泛化，而不是仅仅记录数据的每个细节。然而，差异仍然很重要，因此仍然存在大量过度拟合。

很明显，您的模型过度拟合，因为您的验证错误远高于训练错误。

这也意味着更多的数据可以让你的模型减少过度拟合。如果您有 20k 个示例，我打赌您的验证错误会略低，而训练错误会略高。

但是，我在您的验证错误中也看到了一个平台期，这意味着它不太可能减少很多。如果您想显着减少验证错误，请考虑：

其它你可能感兴趣的问题