数据挖掘 - 向随机森林添加变量会降低性能 - 吾爱随笔录

假设您有 6 个变量。

使用前 5 个变量的随机森林回归的 R^2 为 0.1。仅使用第 6 个变量的另一个回归产生 0.3 的 R^2。所有前 5 个变量都与变量 6 不相关（绝对值相关性<0.1）。

为什么包含所有 6 个变量的回归的 R^2 为 0.31 或 0.29，即将前 5 个变量添加到第 6 个变量只能忽略不计地提高 0.01 甚至降低性能？

请注意，所有模型都通过随机搜索交叉验证调整深度、特征数量、分割和树数进行调整。