使用不重要的特征会损害准确性吗?

数据挖掘 Python scikit-学习
2021-09-17 17:30:00

我正在使用此处找到的 scikit-learn 梯度提升分类器。

如果我在相同的数据上运行分类器而不播种随机数生成器,我会得到不同的特征重要性,值得注意的是,不同的每次都是 0。如果我只看特征重要性 < .005 的特征,会出现大多数相同的特征,但也有一些变化。

我的问题是,除了计算时间之外,这是否有影响?如果它会损害准确性,我想那将是由于过度拟合。但是,如果分类器已经识别出相对不重要的特征,那不就解决了问题吗?

如果它确实会损害准确性,我应该如何选择要摆脱的功能?

2个回答

前段时间我在一个项目中使用了梯度提升分类器。我们有大约 130 个功能,由于系统必须在微控制器上实现,我试图尽可能减少功能的数量。

下图显示了使用前 n 个最重要特征训练的 GBC 模型的性能(F1 分数):

在此处输入图像描述

从这张图片看来,130 个特征中只有 30 个已经达到了“足够好的性能”,而其他 100 个(不重要的)特征似乎没有太大的正面或负面影响。

仅当您在 Y 轴上放大一点时,您才会看到:

在此处输入图像描述

这表明性能在 130 个特征中的 90 个达到峰值 (0.93)。因此,如果您想要最好的模型,那么 40 个特征并不重要。

要回答您的问题“这对计算时间有影响吗? ”:它确实对性能有影响,因为性能再次下降,超过 90 个功能,但只是轻微下降。

要回答您的第二个问题“如果确实会损害准确性,我应该如何选择要摆脱的功能? ”:

我做了以下事情:

  1. 选择前 n 个特征
  2. 使用交叉验证的网格搜索在前 n 个特征上训练 GBC 模型
  3. 重复前 n+1,... 特征
  4. 选择得分最高的模型/特征

如何在步骤 1) 中选择前 n 个特征:

我实际上没有使用 GBC 进行特征选择,而是使用随机森林。我不知道为什么,但我的实验表明,使用 RF 选择特征然后在其上训练 GBC 模型比使用 GBC 选择特征然后在其上训练 GBC 模型效果更好。

随机森林和 GBT 对冗余特征具有鲁棒性,因此准确性不太可能受到负面影响。某些特征的重要性非常低是它们被忽略的证据。因为树是以贪婪的方式构建的,随机起点不同的特征最终可能会被忽略。如果特征 Foo 和 Bar 包含冗余信息,则如果首先选择 Foo,则 Bar 将被忽略 - 反之亦然。