最高主成分与最显着的随机森林变量

机器算法验证 机器学习 主成分分析 随机森林 监督学习
2022-04-10 07:37:04

我正在制作一个监督学习模型,从一个包含大约 100 个特征和 1000 个数据条目的数据库开始。我的目标是预测某个目标变量。我尝试了三种不同的方法来进行降维:

#1 主成分分析,然后是碎石图标准,导致大约 10 个主要 PC,PC 集的累积方差百分比达到 90。

#2 回归分析从所有 100 个变量开始,然后根据它们的 p 值选择前 10 个变量。

#3 所有 100 个变量的随机森林,然后根据变量重要性图选择前 10 个。

然后从前 3 种方法的 10 个变量开始,我重新进行了随机森林回归。中, #3 和#2 特征集的结果非常相似,而#1 特征集的性能则严重不足。R2

我知道这些降维方法可能并不理想。但我的问题是为什么我会得到这样的结果。为什么我期望捕获最重要信息的主成分与其他两个特征集相比表现不佳,而模型(RF)和特征数量相同?

1个回答

PCA 使输入变量的线性组合捕获的方差最大化。这可能无法提取有关您的结果变量的有用信息有几个原因:

  • 如果您的变量不是近似正态分布,则最大化方差并不意味着最大化离散度;
  • >90%输入方差可能会被您的方法捕获,但由于这是一种无监督技术,最后 10% 可能与输出的相关性最强;
  • 您使用的其他技术根据输出返回显着性/变量重要性:您正在将无监督方法与有监督方法进行比较。

换一种说法,为什么要为降维而烦恼呢?似乎您有大量的观察来估计 100 个特征。如果您怀疑某些信息比其他信息少,为什么不采用正则化方法(例如岭回归),或者本质上进行变量选择的方法......比如说......随机森林?