我找不到一个好的答案/参考来解释为什么 rf/决策树/gbm 不受数值变量值的尺度影响。
我的感觉是,由于如果误差很大,提升方法会受到更多惩罚,因此它们当然应该容易受到特征变量规模的影响。
我有一个介于 0-100 之间的数据集,一些值大一个数量级,在 1000 的范围内。我应该缩放它们吗?
根据您的经验,它是否有助于在基于树的算法中扩展特征?
我找不到一个好的答案/参考来解释为什么 rf/决策树/gbm 不受数值变量值的尺度影响。
我的感觉是,由于如果误差很大,提升方法会受到更多惩罚,因此它们当然应该容易受到特征变量规模的影响。
我有一个介于 0-100 之间的数据集,一些值大一个数量级,在 1000 的范围内。我应该缩放它们吗?
根据您的经验,它是否有助于在基于树的算法中扩展特征?
如果您正在缩放结果变量,那么您所做的就是将所有内容乘以一个常数和/或添加一个常数。因此,它所产生的任何影响都是无关紧要的(即,它不会改变任何事物的相对性)。
在预测变量的情况下,预测变量的规模在任何方面都不是传统基于树的模型的预测的决定因素。例如,考虑以下具有 4 个观察值的简单示例,其中 y 是结果,x 是预测变量。
y x
0 5
1 5
2 6
3 6
给定 x 预测 y 的最佳分割在 x 介于 5 和 6 之间。假设是 5.5
现在,如果我们缩放 x,通过将它乘以 100,我们将我们的最佳分割更改为,比如说,550。但是,我们的预测(以及我们的错误)完全没有改变。
y x
0 500
1 500
2 600
3 600