特征重要性比

数据挖掘 特征选择 随机森林
2022-02-17 04:32:44

我训练了一个随机森林分类器(sklearn),然后计算了特征的重要性并对它们进行了排名。森林有 100 个估计器。我的前 5 个功能及其重要性如下所示:

f1 = 0.91
f2 = 0.04
f3 = 0.013
f4 = 0.007
f5 = 0.004

为了避免过度拟合,我使用交叉验证和学习曲线进行了评估。

我的问题是 f1 的重要性似乎明显高于其他功能。它是否意味着任何形式的不正确(过度拟合?)?我应该以其他方式进行特征选择以更好地概括模型吗?

1个回答

事实上,这意味着特征 f1 的质量非常高。通常,如果您得到所有​​功能的重要性级别相同,并且该级别很低,您应该担心。

了解随机森林进行两级随机化非常重要:在数据级别和特征级别,并且很难过度拟合。

既然你在森林里有这么多的树,我不认为你有过度拟合的问题。