评估特征在分类问题中重要性的指标(随机森林)

数据挖掘 特征选择 特征工程
2021-10-12 21:53:51

我想评估 2000x60 数据集的每个特征在随机森林分类问题中的重要性。

最广泛使用的显然是:

  • 交叉熵信息增益
  • 基尼重要性SkLearn实施feature_importances_
  • 均方误差H2O实现h2o.varimp

在这篇研究论文中,我还找到了关于随机森林中变量重要性的一些其他指标的相当简洁的概述

这些是:

  • 奥特曼
  • 博鲁塔
  • 排列
  • 循环相对变量重要性
  • 递归特征消除
  • 维他
  • VSURF

有没有人使用过这些,哪一个对他/她的模型来说信息量最大?

对于随机森林中的变量重要性,您还有任何其他此类指标吗?

1个回答

最常用的方法之一是置换特征重要性,当单个特征值被随机打乱时,模型得分会降低。结果是排序的特征列表,每个特征都有一个分布估计。它适用于随机森林。