使用 Pearson 相关性检测连续特征中的冗余

数据挖掘 特征选择 相关性 特征工程
2022-02-12 07:11:54

我有一组变量要用于回归或分类问题。在计算了这些变量的相关矩阵后,我发现其中一些变量的 Pearson 相关值高达 1。

  1. 这是否意味着这些变量为学习者保存了冗余信息?
  2. 在不冒信息丢失风险的情况下删除其中一个是否安全?如果是,如何选择要删除的?
2个回答

如果两个特征之间的相关性x1x2是 1 表示你可以写x1=cx2+a. 唯一知道的知识是这两个常数,知道这一点就可以检索各个值。我非常怀疑机器学习算法可以从中学到什么,事实上,对于某些在特征之间具有这种相关性的人可能会严重损害您的表现,所以我会对其进行一些测试,但我会说它非常很可能您可以删除两者之一,而哪一个无关紧要。

是的,是的。

Variance Inflation Factor 是解决您的问题的常用方法。

回答

https://en.m.wikipedia.org/wiki/Variance_inflation_factor

基于相关性的特征选择是另一种方法。

https://en.wikipedia.org/wiki/Feature_selection#Correlation_feature_selection