回归的高基数分类特征的特征重要性(数值因变量)

数据挖掘 scikit-学习 特征选择 随机森林 xgboost 分类数据
2021-09-29 04:42:29

我试图使用随机森林中的特征重要性来为回归问题执行一些经验特征选择,其中所有特征都是分类的,其中很多都有很多级别(大约 100-1000)。鉴于 one-hot 编码为每个级别创建一个虚拟变量,特征重要性针对每个级别而不是每个特征(列)。聚合这些特征重要性的好方法是什么?

我考虑过对一个特征的所有级别求和或求平均重要性(可能前者会偏向于具有更多级别的那些特征)。有没有关于这个问题的参考资料?

还可以做些什么来减少特征的数量?我知道组套索,找不到任何易于用于 scikit-learn 的东西。

1个回答

这取决于您如何对它们进行一次性编码。许多自动化解决方案将使用模式命名所有转换的布尔值,以便一个名为“字母”的分类变量,其值为 AZ 最终会像:

字母_A,字母_B,字母_C,字母_D,....

如果在你计算出特征重要性之后,你有一个特征数组和相关的权重/重要性,我会分析这个数组,并可能总结任何以“字母%”开头的特征重要性权重。