对这个“学习曲线”图有什么好的解释?

数据挖掘 机器学习 分类 助推
2021-09-20 06:29:07

我阅读了关于validation_curve以及如何解释它以了解是否存在过度拟合或欠拟合的信息,但是当数据是这样的错误时如何解释该图:

在此处输入图像描述

  • X 轴是“训练示例的 Nº”
  • 红线是火车错误
  • 绿线是验证错误

谢谢

2个回答
  • X 轴是训练集中实例的数量,所以这个图是一个数据消融研究:它显示了不同数量的训练数据会发生什么。
  • Y 轴是一个错误分数,因此较低的值意味着更好的性能。
  • 在图的最左侧,在大约 6000 个实例之前,训练集上的误差为零这一事实表明过度拟合,而训练和验证之间误差的巨大差异证实了这一点。
  • 在图表的右半部分,性能差异开始减小,验证集的性能似乎趋于稳定。训练误差大于零的事实是好的:这意味着模型开始泛化,而不是仅仅记录数据的每个细节。然而,差异仍然很重要,因此仍然存在大量过度拟合。

很明显,您的模型过度拟合,因为您的验证错误远高于训练错误。

这也意味着更多的数据可以让你的模型减少过度拟合。如果您有 20k 个示例,我打赌您的验证错误会略低,而训练错误会略高。

但是,我在您的验证错误中也看到了一个平台期,这意味着它不太可能减少很多。如果您想显着减少验证错误,请考虑:

  • 使用过拟合较少的模型 - 使用不同的算法或将参数设置为较低的偏差配置。
  • 使用新功能/信息。
  • 获取更多数据,但这不太可能减少验证错误的显着性。