我有一个包含 10 个特征的数据集。
在拟合了 Scikit learn 的极其随机树 (ET) 分类器之后,我使用来自 eli5 的交叉验证的置换重要性计算了特征重要性。
我一次只使用一个特征拟合了 10 个不同的 ET,并使用相同的 CV 方案计算了平均交叉验证分数。
我注意到,虽然我从排列重要性中获得的特征的重要性顺序与特征的顺序相匹配,但当我使用一次仅使用一个特征拟合模型时获得的平均 CV 分数对它们进行排名时,有一个特征可以排列重要性类别在最底部,而单独使用模型拟合时的平均 CV 分数是第二个。
假设从1.开始,特征的顺序是特征2、特征4、特征5、特征1、特征9、特征8、特征7、特征10、特征3、特征6。当一次使用一个特征并计算平均 cv 分数时,我注意到特征 3 的平均 cv 分数是第二好的,尽管重要性特征表明它是一个弱特征。
如果有人能帮助我理解如何解释这一点以及哪种方法似乎更值得信赖,我将不胜感激。
谢谢你。