我有一个概念问题。我的理解是,即使特征(高度)相关,也可以应用随机森林。这是因为通过 bagging,少数高度相关特征的影响得到了缓和,因为每个特征只出现在最终用于构建整体模型的一些树中。
我的问题:通过增强,通常会使用更小的树(基本上是“stunps”)。在 bagging 方法中拥有许多(高度)相关的特征是一个问题吗?
我有一个概念问题。我的理解是,即使特征(高度)相关,也可以应用随机森林。这是因为通过 bagging,少数高度相关特征的影响得到了缓和,因为每个特征只出现在最终用于构建整体模型的一些树中。
我的问题:通过增强,通常会使用更小的树(基本上是“stunps”)。在 bagging 方法中拥有许多(高度)相关的特征是一个问题吗?
实际上,您对随机森林的理解并非 100% 正确。变量是按拆分采样的,而不是按树采样的。所以每棵树都可以访问所有变量。
一般来说,基于树的模型不会受到高度相关特征的强烈影响。与最小二乘法一样,没有数值稳定性问题。您可以轻松地将变量添加两次,而不会出现数字问题。但是请注意,大多数可解释性工具(如重要性分割图或部分依赖图)都受到多重共线性的影响。所以在这种情况下要小心他们。