是否有必要为 XGBoost 标准化数据?

数据挖掘 决策树 xgboost 正常化
2021-10-05 23:50:26

MinMaxScaler()inscikit-learn用于数据归一化(又名特征缩放)。决策树不需要数据规范化。由于 XGBoost 基于决策树,是否有必要使用数据进行数据归一化以MinMaxScaler()将数据馈送到 XGBoost 机器学习模型?

2个回答

您的理由确实是正确的:决策树不需要对其输入进行标准化;由于 XGBoost 本质上是一个由决策树组成的集成算法,因此它也不需要对输入进行归一化。

对于确证,另请参阅线程标准化是否必要?在 XGBoost Github 存储库中,主要 XGBoost 开发人员的答案很明确:

不,您不必规范化功能

虽然决策树对异常值具有天然的抵抗力,但增强树很容易受到影响,因为新树是从残差中构建的。归一化,甚至只是对数变换,都会为您提供更好的异常值保护。

对于计划投入生产的 XGB 模型,我建议这样做。无论如何,这并不是一个可以解释输出的人。我认为 XGBoost 在黑盒方面。