数据挖掘 - GBM 方法的性能是否受益于特征缩放？ - 吾爱随笔录

GBM 方法的性能是否受益于特征缩放？

数据挖掘特征缩放 gbm

2021-09-26 11:34:07

我知道特征缩放是创建人工神经网络模型的重要预处理步骤。

但是梯度提升机器，例如 LightGBM、XGBoost 或 CatBoost 呢？他们的性能是否从特征扩展中受益？如果是这样，为什么以及如何？

1个回答

缩放不会影响任何基于树的方法的性能，而不是 lightgbm、xgboost、catboost 甚至决策树。

这篇文章详细阐述了这个主题，但主要问题是决策树基于二元决策分割特征空间，例如“这个特征是否大于这个值？”，如果你扩展你的数据，决策可能看起来不同，因为它们是在缩放空间上完成的，但结果应该是相同的。

例如，如果您更改单位（缩放的特殊情况），决策树应该以相同的方式拆分数据。假设您想使用一个人的体重来预测某人是否在 18 岁以下（作为二元分类器）。如果以克为单位给出体重，决策树可能会执行以下操作：如果体重 < 5000 克，则此人未满 18 岁。如果将单位更改为千克，决策树将执行以下操作：如果体重 < 5 千克，则人未满 18 岁。

总而言之，在任何缩放或通常任何递增的线性变换下，拆分都是等价的。

其它你可能感兴趣的问题

上一篇注意神经网络中的时间序列下一篇ExtraTreesRegressor 标准