我读过这个问题:我如何解释 XGBoost 重要性的输出?关于三种不同类型的特征重要性:频率(在 Python XGBoost 中称为“权重”)、增益和覆盖。
在我的例子中,我有一个特性,性别,它基于频率度量的重要性非常低,但它是迄今为止基于增益和覆盖度量的最重要的特性。
我知道性别对于我的预测应该很重要。如果我只绘制性别与目标的关系,则存在明显的相关性。我并不惊讶它是最重要的功能。我只是想知道为什么它不被视为基于频率度量的重要功能。
我读过这个问题:我如何解释 XGBoost 重要性的输出?关于三种不同类型的特征重要性:频率(在 Python XGBoost 中称为“权重”)、增益和覆盖。
在我的例子中,我有一个特性,性别,它基于频率度量的重要性非常低,但它是迄今为止基于增益和覆盖度量的最重要的特性。
我知道性别对于我的预测应该很重要。如果我只绘制性别与目标的关系,则存在明显的相关性。我并不惊讶它是最重要的功能。我只是想知道为什么它不被视为基于频率度量的重要功能。
我只是想知道为什么它不被视为基于频率度量的重要功能。
与数据集中的其他预测变量相比,最有可能的是,变量性别的可能值数量要少得多(通常只有两个:男性/女性或 0/1,具体取决于表示形式)。
如果在您的情况下性别只是二元的,这意味着它在每棵树中最多可以使用一次,而比如说,年龄可能在树的不同级别上出现的频率要高得多。