我有一个随机森林二元分类器,但结果feature importances
有些不稳定。这是我想知道的:RandomForestClassifierfeature_importances_
中的多重共线性是否混乱?
我正在使用sci-kit learn
(sklearn
在 python 中)作为随机森林分类器,并获得特征重要性。
为了验证feature_importances_
sklearn 中 RandomForestClassifier 的输出,我每次都尝试删除最重要的特征(即特征重要性最高的特征,以查看第二重要的特征是否会在下一次迭代中作为最重要的特征出现。 ...但是,这从未发生过。
这样做的结果非常不稳定,并且没有保留特征重要性的顺序。在每次迭代中,都有一个具有极高重要性的特征(例如 0.7 或 0.8),其他所有特征都在 0.1 和 0.0001 之间。有 9 个功能可以启动。第二高的特征重要性在下一次迭代中从未出现过最重要的 。
是否multicollinearity
弄乱了功能的重要性,或者我还缺少其他什么东西弄乱了它?