我训练了一个随机森林分类器(sklearn),然后计算了特征的重要性并对它们进行了排名。森林有 100 个估计器。我的前 5 个功能及其重要性如下所示:
f1 = 0.91
f2 = 0.04
f3 = 0.013
f4 = 0.007
f5 = 0.004
为了避免过度拟合,我使用交叉验证和学习曲线进行了评估。
我的问题是 f1 的重要性似乎明显高于其他功能。它是否意味着任何形式的不正确(过度拟合?)?我应该以其他方式进行特征选择以更好地概括模型吗?
我训练了一个随机森林分类器(sklearn),然后计算了特征的重要性并对它们进行了排名。森林有 100 个估计器。我的前 5 个功能及其重要性如下所示:
f1 = 0.91
f2 = 0.04
f3 = 0.013
f4 = 0.007
f5 = 0.004
为了避免过度拟合,我使用交叉验证和学习曲线进行了评估。
我的问题是 f1 的重要性似乎明显高于其他功能。它是否意味着任何形式的不正确(过度拟合?)?我应该以其他方式进行特征选择以更好地概括模型吗?
事实上,这意味着特征 f1 的质量非常高。通常,如果您得到所有功能的重要性级别相同,并且该级别很低,您应该担心。
了解随机森林进行两级随机化非常重要:在数据级别和特征级别,并且很难过度拟合。
既然你在森林里有这么多的树,我不认为你有过度拟合的问题。