假设我有一组M个分类变量,其中一些具有不同数量的类别(例如,var1有五个类别,var2有三个等)。在对M个分类变量执行 one-hot 编码后,我在数字目标Y
上训练 XGBoost 模型,从而创建一组虚拟输入。
在查看模型结果时,我得到了每个特征类别的重要性增益表,这意味着它们在模型中的重要性。玩具结果如下所示:
feature | category gain
var1 | cat3 25
var2 | cat1 20
var1 | cat5 12
var5 | cat6 11
var4 | cat1 8
... ...
我要问的主要问题如下:
- 为了了解一个变量的整体重要性,而不仅仅是它的一个类别(例如,有多少var1整体重要,而不仅仅是var1的类别cat3),取所有变量的平均值是否有意义?每个特征的重要性增益作为重要性指标?
由于特征可能具有不同数量的类别,因此这些收益的总和可能不正确,但我想知道这些收益的平均值是否可以作为特定特征整体重要性的指标。
我已经看过一些这样的问题,但对这个主题没有太多了解。