GBM 方法的性能是否受益于特征缩放?

数据挖掘 特征缩放 gbm
2021-09-26 11:34:07

我知道特征缩放是创建人工神经网络模型的重要预处理步骤。

但是梯度提升机器,例如 LightGBM、XGBoost 或 CatBoost 呢?他们的性能是否从特征扩展中受益?如果是这样,为什么以及如何?

1个回答

缩放不会影响任何基于树的方法的性能,而不是 lightgbm、xgboost、catboost 甚至决策树。

这篇文章详细阐述了这个主题,但主要问题是决策树基于二元决策分割特征空间,例如“这个特征是否大于这个值?”,如果你扩展你的数据,决策可能看起来不同,因为它们是在缩放空间上完成的,但结果应该是相同的。

例如,如果您更改单位(缩放的特殊情况),决策树应该以相同的方式拆分数据。假设您想使用一个人的体重来预测某人是否在 18 岁以下(作为二元分类器)。如果以克为单位给出体重,决策树可能会执行以下操作:如果体重 < 5000 克,则此人未满 18 岁。如果将单位更改为千克,决策树将执行以下操作:如果体重 < 5 千克,则人未满 18 岁。

总而言之,在任何缩放或通常任何递增的线性变换下,拆分都是等价的。