假设您有 6 个变量。
使用前 5 个变量的随机森林回归的 R^2 为 0.1。仅使用第 6 个变量的另一个回归产生 0.3 的 R^2。所有前 5 个变量都与变量 6 不相关(绝对值相关性<0.1)。
为什么包含所有 6 个变量的回归的 R^2 为 0.31 或 0.29,即将前 5 个变量添加到第 6 个变量只能忽略不计地提高 0.01 甚至降低性能?
请注意,所有模型都通过随机搜索交叉验证调整深度、特征数量、分割和树数进行调整。
假设您有 6 个变量。
使用前 5 个变量的随机森林回归的 R^2 为 0.1。仅使用第 6 个变量的另一个回归产生 0.3 的 R^2。所有前 5 个变量都与变量 6 不相关(绝对值相关性<0.1)。
为什么包含所有 6 个变量的回归的 R^2 为 0.31 或 0.29,即将前 5 个变量添加到第 6 个变量只能忽略不计地提高 0.01 甚至降低性能?
请注意,所有模型都通过随机搜索交叉验证调整深度、特征数量、分割和树数进行调整。
即使您的变量是线性不相关的,它们也可能仍然是非线性相关的。仅仅使用相关系数来表示数据不相关对于非线性回归是不够的。
尽管如此,如果变量无法从目标数据中解释任何新内容,则向模型添加变量可能不会改善最终结果。这似乎是这样一种情况。