如何检查更大的训练数据集是否会提高我的 scikit 分类器的准确性?

数据挖掘 分类 scikit-学习 准确性
2022-02-21 13:22:58

如何检查更大的训练数据集是否会提高我的 scikit 分类器的准确性,有什么方法吗?

2个回答

一个想法:

  1. 将您的数据拆分为训练/保留数据集。
  2. 在一小部分训练数据(比如 50%)上训练模型并在保留数据集上进行测试。
  3. 在较大部分的训练数据(比如 75%)上训练模型并在保留数据集上进行测试。

使用相同的保留数据进行测试非常重要,这样您就可以执行真正的准确性测试。

由于您正在进行分类,因此您应该检查您的数据是否平衡,如果不平衡则进行调整(这也可以提高您的准确性,而无需更大的训练数据)。

当您增加训练示例的数量时,验证曲线方法(可在Scikit上获得)绘制指标的交叉验证分数。如果模型性能开始随着原始数据集的训练示例而停滞不前,则可能是更大的数据集不会提高分类器性能的征兆。

这也使您可以清楚地观察模型的偏差与方差行为。

验证曲线

如下图所示(来源),当训练和验证性能都明显低于您的目标时,您的偏差很大(欠拟合)。另一方面,您可能会过度拟合并导致模型在训练数据集上的表现比在验证中的表现要好得多,从而导致高方差(也称为过度拟合)。

一个训练有素的模型将在偏差与方差之间取得良好的折衷,两者都在所需目标附近表现,并且在训练和验证数据集中表现均匀。

在此处输入图像描述