在使用提升树时,您会推荐特征归一化吗?

数据挖掘 随机森林 xgboost 正常化
2021-09-27 06:32:18

对于某些机器学习方法,建议使用特征归一化来使用相同尺度的特征,特别是对于基于距离的方法(如 k-means)或使用正则化时。然而,根据我的经验,由于某些奇怪的原因,当我使用归一化特征时,提升树回归的效果不太好。您使用带有增强树的特征规范化的经验如何总体上改进了我们的模型?

2个回答

提升树是关于构建多个决策树。决策树不需要特征归一化,这是因为模型只需要绝对值进行分支。

决策树的维基百科

Requires little data preparation. Other techniques often require data normalization....

然而,标准化你的特征总是一个好主意,因为:

  • 更容易可视化和解释您的模型
  • 将另一个模型(例如 SVM)与相同的数据集进行比较更容易

您使用带有增强树的特征规范化的经验如何总体上改进了我们的模型?

我在扩展功能方面相当有限的经验表明它对 xgboost 结果几乎没有影响。

我想通过标准化你的意思是减去平均值然后除以标准偏差。如果您基于整个数据集(包括holdout)计算统计数据,您会得到数据泄漏,这实际上至少在理论上可能会降低holdout 的性能。

根据我对 xgboost的理解,正确执行的缩放应该对性能没有影响。

我建议您仔细检查您的实现或提供有关如何执行此操作的更多详细信息,最好包括一个可重现的示例。