为什么特征相互依赖,特征相互之间具有高度相关性,意味着它们将是冗余的?此外,PCA 是否有助于摆脱冗余/不相关的特征,还是我们必须在我们的数据集上运行 PCA 之前摆脱冗余/不相关的特征?
特征冗余
数据挖掘
特征选择
降维
主成分分析
2022-03-09 09:51:08
2个回答
为了训练,高度相关的特征提供的训练“价值”很小,因为一个值的存在/状态总是(或几乎总是)可以用来确定另一个值的存在/状态。如果是这种情况,则没有理由添加这两个特征,因为两者都对预测影响不大——如果 A“on”=B“off”,A“off”=B“on”,那么所有状态都可以是仅通过学习 A 或 B 来表示。这大大简化了,但对于其他高度相关的值也是如此。
PCA 可以帮助减少特征,但无论如何,如果您确定了在训练中几乎没有用处的冗余或高度相关的特征,那么立即消除它们然后使用 PCA 或其他特征重要性指标可能是有意义的可以通过训练你的完整数据集来生成,以进一步优化你的训练特征集。
冗余特征可以是多重共线性(即高度相关)的特征,但更重要的是,它们测量的是同一事物而没有独特的贡献。
例如,年龄和收入可能高度相关,但在某些分析中,它们在您的模型中仍然具有独特的影响,并且可能存在您想要捕获以进行解释的概念差异。OTOH,在我能想到的大多数用例中,年龄和出生日期完全是多余的(尽管总是有例外,例如出生季节很重要)。
PCA 可以帮助减少冗余吗?当然。这是您可以为此使用的至少数十种技术之一。
使用 PCA 进行特征选择的一种方法是查看主成分上的因子负载并确定哪些相关变量正在测量相同的主成分,然后选择前 1 个或少数几个变量来表示该潜在变量,从而消除高度相关的非显着变量特征。
您是否应该在 PCA 之前消除冗余功能?如果您打算使用主成分进行预测而不是特征消除,那么可以。
您可以进行一轮特征分析,涉及 PCA 或其他技术,如果您想同时进行这两项,则可以进行第二轮为您的模型创建潜在变量。
一些用于特征选择的附加工具:
- 最小冗余 最大相关性
- 相关特征选择
- 典型相关分析
- 因子分析
- 使用协方差矩阵
- 奇异值分解
- 方差通货膨胀因素
其它你可能感兴趣的问题