即使变量之间存在高度共线性,PCA 是否有助于包含所有变量?

数据挖掘 线性回归 主成分分析 共线性
2022-02-14 20:39:40

我有一个变量之间具有高度共线性的数据集。当我创建线性回归模型时,我不能包含超过五个变量(只要 VIF>5,我就消除了该特征)。但我需要拥有模型中的所有变量并找到它们的相对重要性。有没有办法解决它?我正在考虑做 PCA 并在主成分上创建模型。有帮助吗。。

2个回答

PCA将生成正交(非相关)的“新”(转换后的)特征。但是,由于原始特征是经过转换的,因此您很难对基于 PCA 的(原始)特征的重要性说太多。

一种明显的替代方法是使用随机森林 (RF) 来确定特征重要性使用基于树的模型(如 RF 或基于树的提升),您无需关心特征空间中的共线性。

使用PCA时,您不应再尝试解释单个特征。成分是变量的多个线性组合,不应与原始特征相关。

当您想处理特征重要性时,您可以使用随机森林决策树,如前所述。您也可以通过随机化或改组一个特征、重新训练网络并比较性能来使用神经网络来做到这一点。