我想评估 2000x60 数据集的每个特征在随机森林分类问题中的重要性。
最广泛使用的显然是:
- 交叉熵信息增益
- 基尼重要性(
SkLearn实施feature_importances_) - 均方误差(
H2O实现h2o.varimp)
在这篇研究论文中,我还找到了关于随机森林中变量重要性的一些其他指标的相当简洁的概述。
这些是:
- 奥特曼
- 博鲁塔
- 排列
- 循环相对变量重要性
- 递归特征消除
- 维他
- VSURF
有没有人使用过这些,哪一个对他/她的模型来说信息量最大?
对于随机森林中的变量重要性,您还有任何其他此类指标吗?