训练和交叉验证曲线的正比趋势

数据挖掘 机器学习 数据 交叉验证 准确性
2022-03-03 07:00:45

继续已经提出的问题,我在找到的不同数据集上尝试了相同的曲线。我的模型是带有 OnevsRest 分类器的简单逻辑回归曲线。但是我这次得到的图表不一样。 在此处输入图像描述

这可能是什么原因?正如另一个答案中所解释的,如果需要更少的数据来更好地拟合,那么这里的准确性不应该降低吗?

1个回答

这些学习曲线看起来很不寻常——训练准确度应该从高开始,随着更多样本的添加而降低。

我怀疑您的数据是顺序的(它具有某种时间依赖性)。sklearn 的 learning_curve 函数似乎不会对数据进行洗牌(应该吗?),因此一旦数据中出现新结构,训练精度就会随着时间的推移而改变/增加。

这是一个试图重现效果的笔记本: https ://gist.github.com/stmax82/79b744877b0a482f8739d372c4777e0d

笔记本上的两张图片:

洗牌数据的学习曲线如下所示(如预期的那样):

混洗数据的学习曲线

虽然原始/序列数据的学习曲线看起来像这样(不寻常,因为训练准确度随着时间的推移而上升):

原始数据的学习曲线

这只是我试图解释你的学习曲线。这可能是完全不同的东西......尝试改组您的数据以找出答案。