对这个“学习曲线”图有什么好的解释?
数据挖掘
机器学习
分类
助推
2021-09-20 06:29:07
2个回答
- X 轴是训练集中实例的数量,所以这个图是一个数据消融研究:它显示了不同数量的训练数据会发生什么。
- Y 轴是一个错误分数,因此较低的值意味着更好的性能。
- 在图的最左侧,在大约 6000 个实例之前,训练集上的误差为零这一事实表明过度拟合,而训练和验证之间误差的巨大差异证实了这一点。
- 在图表的右半部分,性能差异开始减小,验证集的性能似乎趋于稳定。训练误差大于零的事实是好的:这意味着模型开始泛化,而不是仅仅记录数据的每个细节。然而,差异仍然很重要,因此仍然存在大量过度拟合。
很明显,您的模型过度拟合,因为您的验证错误远高于训练错误。
这也意味着更多的数据可以让你的模型减少过度拟合。如果您有 20k 个示例,我打赌您的验证错误会略低,而训练错误会略高。
但是,我在您的验证错误中也看到了一个平台期,这意味着它不太可能减少很多。如果您想显着减少验证错误,请考虑:
- 使用过拟合较少的模型 - 使用不同的算法或将参数设置为较低的偏差配置。
- 使用新功能/信息。
- 获取更多数据,但这不太可能减少验证错误的显着性。