随机森林是否需要对输入变量进行缩放或居中?

机器算法验证 随机森林 标准化 数据预处理 定心
2022-01-18 01:31:19

我的输入变量有不同的维度。有些变量是十进制的,而有些是数百个。在使用随机森林时,为了使数据无量纲,是否必须将这些输入变量居中(减去平均值)或缩放(除以标准差)?

2个回答

不。

随机森林基于树分区算法。

因此,没有类似于在一般回归策略中获得的系数,这将取决于自变量的单位。取而代之的是,获得一组分区规则,基本上是给定阈值的决定,这不应该随着缩放而改变。换句话说,树只看到特征中的等级。

基本上,数据的任何单调变换都不应该改变森林(在最常见的实现中)。

此外,决策树通常对有时会损害其他算法的收敛性和精度的数值不稳定性具有鲁棒性。

总的来说,我同意 Firebug,但如果您对预测变量的重要性分数感兴趣,标准化变量可能会有一些价值。RF 将倾向于支持高度可变的连续预测变量,因为有更多的机会对数据进行分区。然而,处理这个问题的更好方法是使用对这种偏差更稳健的特定方法(即使用条件森林进行抽样而不进行替换)。https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25