数据挖掘 - 为什么会在特征重要性中选择具有随机数的假特征？ - 吾爱随笔录

为什么会在特征重要性中选择具有随机数的假特征？

数据挖掘 scikit-学习特征选择随机森林特征工程

2021-09-26 19:54:12

我正在使用 asklearn.ensemble.RandomForestClassifier(n_estimators=100)来应对这个挑战： https ://kaggle.com/c/two-sigma-financial-news

我已经绘制了我的特征重要性：

我创建了一个名为的虚假功能random，它只是从中提取的数字np.random.randn()。不幸的是，它似乎具有相当重要的特征重要性。

我该如何解释这个？我原以为它会在底部。

PS xgboost 似乎放弃了这个功能，因为它应该。

1个回答

Scikit-learn 的随机森林特征重要性基于杂质的平均减少，计算速度快，忠实于原始创建的随机森林方法。简而言之，默认值feature_importances_给出了随机森林使用其本机构造度量来表示特征重要性的数字证明。如您所见，该指标的缺点是它可以说噪声是一个重要特征。因此，您可能需要考虑其他特征重要性方法，例如置换特征重要性，这将使您与您将测试的其他模型进行更多的苹果对苹果的比较。这些方法中的许多都有优点和缺点，因此请注意它们。

其它你可能感兴趣的问题

上一篇Facebook 的 Starspace 模型背后的神经网络架构是什么？下一篇使用 TfidfVectorizer 进行二进制文本分类给出 ValueError: setting an array element with a sequence