我正在制作一个监督学习模型,从一个包含大约 100 个特征和 1000 个数据条目的数据库开始。我的目标是预测某个目标变量。我尝试了三种不同的方法来进行降维:
#1 主成分分析,然后是碎石图标准,导致大约 10 个主要 PC,PC 集的累积方差百分比达到 90。
#2 回归分析从所有 100 个变量开始,然后根据它们的 p 值选择前 10 个变量。
#3 所有 100 个变量的随机森林,然后根据变量重要性图选择前 10 个。
然后从前 3 种方法的 10 个变量开始,我重新进行了随机森林回归。中, #3 和#2 特征集的结果非常相似,而#1 特征集的性能则严重不足。
我知道这些降维方法可能并不理想。但我的问题是为什么我会得到这样的结果。为什么我期望捕获最重要信息的主成分与其他两个特征集相比表现不佳,而模型(RF)和特征数量相同?