在数据分类问题(使用监督学习)中,训练集准确度和测试集准确度的理想差异应该是什么?理想的范围应该是多少?训练集和测试集的准确率相差 5% 可以吗?或者它是否意味着过度拟合?
训练准确率和测试准确率的理想差异
数据挖掘
分类
数据
监督学习
训练
准确性
2022-02-24 08:37:36
2个回答
从理论上讲,在一个完美的场景中,训练和测试数据都准确地代表了你的问题的分布。因此,在理想情况下,训练和测试在准确性上不应有任何显着差异。当您拥有大量数据时,这变得越来越真实。
5%的差异是完全没问题的。在实践中,训练准确率略高于测试准确率是很常见的。我会说差异可能不是最好的指标。你应该看的是相关性。这意味着,只要训练和测试的准确性以相似的速度一起提高,无论它们相距多远,你都是清楚的。您可以通过对越来越大的数据子集进行训练和评估来调查这一点。理想情况下,随着您添加数据,训练和测试都应该得到改善。如果测试数据开始减少,则表示过度拟合。
5%的差异是可以的。尝试使用交叉验证并以平均精度进行验证。
根据经验,执行 k-cv k=10 的良好设置在目标属性上对数据集进行分层。
另外请尝试查看您的数据集是否平衡。
其它你可能感兴趣的问题