为什么会在特征重要性中选择具有随机数的假特征?

数据挖掘 scikit-学习 特征选择 随机森林 特征工程
2021-09-26 19:54:12

我正在使用 asklearn.ensemble.RandomForestClassifier(n_estimators=100)来应对这个挑战: https ://kaggle.com/c/two-sigma-financial-news

我已经绘制了我的特征重要性:

在此处输入图像描述

我创建了一个名为的虚假功能random,它只是从中提取的数字np.random.randn()不幸的是,它似乎具有相当重要的特征重要性。

我该如何解释这个?我原以为它会在底部。

PS xgboost 似乎放弃了这个功能,因为它应该。

1个回答

Scikit-learn 的随机森林特征重要性基于杂质的平均减少,计算速度快,忠实于原始创建的随机森林方法。简而言之,默认值feature_importances_给出了随机森林使用其本机构造度量来表示特征重要性的数字证明。如您所见,该指标的缺点是它可以说噪声是一个重要特征。因此,您可能需要考虑其他特征重要性方法,例如置换特征重要性,这将使您与您将测试的其他模型进行更多的苹果对苹果的比较。这些方法中的许多都有优点和缺点,因此请注意它们。