决策树变量(特征)缩放和变量(特征)归一化(调整)在哪些实现中需要?

机器算法验证 机器学习 特征选择 大车
2022-03-09 23:44:51

在许多机器学习算法中,特征缩放(又名变量缩放,归一化)是一个常见的预处理步骤Wikipedia - Feature Scaling - 这个问题很接近Question#41704 - How and why do normalization and feature scaling work?

我有两个关于决策树的问题:

  1. 是否有任何需要特征缩放的决策树实现?我的印象是大多数算法的分割标准与规模无关。
  2. 考虑这些变量:(1)单位,(2)小时,(3)每小时单位——当输入决策树时最好将这三个变量“保持原样”还是我们遇到某种类型的冲突因为“标准化”变量 (3) 与 (1) 和 (2) 相关?也就是说,您是否会通过将所有三个变量混合在一起来解决这种情况,或者您通常会选择这三个变量的某种组合,还是简单地使用“标准化/标准化”特征 (3)?
1个回答

对于 1,决策树通常不需要缩放。但是,它有助于数据可视化/操作,如果您打算将性能与其他数据或其他方法(如 SVM)进行比较,它可能会很有用。

对于 2,这是一个调优的问题。单位/小时可能被认为是一种变量交互,并且可能具有不同的预测能力。不过,这实际上取决于您的数据。我会尝试有无,看看是否有区别。