我有一个分类特征,我一次性编码并在我的 XGBoost 模型中使用,但与其他预测器相比,它作为预测器始终表现不佳。
然后我创建了一个新变量,其中包含与分类特征相同的信息......
想象一下,我有兴趣预测房屋的价格,分类特征是它所在的城镇,而数字特征是我根据对城镇的一些先验知识生成的对城镇相对昂贵程度进行排名的特征。
TownA - 100
TownB - 40
TownC - 65
TownD - 15
现在突然之间,直接从分类变量导出的新数值变量表现出色。这是因为 XGBoost 对数值变量的效果更好,并且当我对变量进行一次性编码时,可能会丢失一些预测能力?