添加新功能时我的模型是否过拟合?

数据挖掘 分类 过拟合
2022-02-27 04:44:24

我正在研究简单的 2 类分类问题。我们使用的几乎所有特征(除了一个)对于这两个类别都大致相同:随机森林分类器确认一个特征具有 40% 的“重要性”,而其余特征的“重要性”约为 8% 或更少。

为了提高性能,我加入了 4 个新功能作为实验。这些特征在两个类中都有非常不同的分布(它们的平均值非常不同),因此它们对于区分类应该很有用。但是,当我包含这些时,性能显着下降。性能细节:

  • 我们试图达到 95% 的精度(也就是说,95% 归类为“1 类”的事物确实是 1 类)。
  • 使用旧的特征集,我们可以实现大约 96% 的召回率(96% 的 ARE 类 1 被归类为 1)。
  • 然而,新功能将召回率降至 95% 或以下。

我强烈怀疑该模型现在过度拟合。但是,我找不到任何证据。过去,模型在 TRAINING 数据上的准确性比在 TEST 数据上高出约 1%。有了这 4 个新特征,准确率仅提高了 0.8%——这表明该模型实际上比以前过度拟合 LESS。

我目前正在使用 SVM 的“最佳性能”数字。我也在随机森林模型上尝试过这些东西,结果是一样的。

是否有可能我测量过拟合错误?或者是否有另一种方法可以添加新功能会降低分类器的性能?

0个回答
没有发现任何回复~