数据挖掘 - 添加新功能时我的模型是否过拟合？ - 吾爱随笔录

我正在研究简单的 2 类分类问题。我们使用的几乎所有特征（除了一个）对于这两个类别都大致相同：随机森林分类器确认一个特征具有 40% 的“重要性”，而其余特征的“重要性”约为 8% 或更少。

为了提高性能，我加入了 4 个新功能作为实验。这些特征在两个类中都有非常不同的分布（它们的平均值非常不同），因此它们对于区分类应该很有用。但是，当我包含这些时，性能显着下降。性能细节：

我强烈怀疑该模型现在过度拟合。但是，我找不到任何证据。过去，模型在 TRAINING 数据上的准确性比在 TEST 数据上高出约 1%。有了这 4 个新特征，准确率仅提高了 0.8%——这表明该模型实际上比以前过度拟合 LESS。

我目前正在使用 SVM 的“最佳性能”数字。我也在随机森林模型上尝试过这些东西，结果是一样的。

是否有可能我测量过拟合错误？或者是否有另一种方法可以添加新功能会降低分类器的性能？