使用 PCA 进行预处理但保持相同的维度如何改善随机森林结果?

机器算法验证 主成分分析 随机森林
2022-04-06 19:46:08

我找到了这些句子:

随机森林之前的 PCA 可能对降维有用,但可以为您的数据提供随机森林可以更好地执行的形状。

我很确定,一般来说,如果您使用 PCA 转换数据,保持原始数据的相同维度,您将使用随机森林进行更好的分类

来自本页: 随机森林分类前高维文本数据的 PCA?

就我而言,我发现这确实是真的,对于一个包含约 1M 记录和 25 个预测变量的数据库的回归问题。如果我使用 25 个 PCA 作为预测变量而不是 25 个原始预测变量,则误差会减少约 10% 。

任何人都可以帮助我理解和清楚地解释这个结果吗?

1个回答

当决策边界在特征空间中是“对角线”时,随机森林会遇到困难,因为 RF 必须用大量“矩形”分割来近似该对角线。在 PCA 重新定向数据以使垂直于旋转和重新缩放的轴的拆分与决策边界良好对齐的情况下,PCA 将有所帮助。但是没有理由相信 PCA 通常会有所帮助,因为并非所有决策边界在旋转时都会得到改善(例如,圆形)。即使您确实有对角线决策边界,或者在旋转空间中更容易找到的边界,应用PCA 也只会巧合地找到该旋转,因为 PCA 根本不了解任务的分类组件(它不是“ -aware”)。y

此外,@hxd1011 的警告适用于所有使用 PCA 进行监督学习的项目:PCA 旋转的数据可能与分类目标几乎没有相关性。