高度相关的特征

数据挖掘 数据 数据科学模型
2022-02-10 12:21:45

去除相关图中高度相关特征的条件是什么?鉴于下面的相关图,是否可以删除诊断特征,我们是否应该在每种情况下都删除高度相关的特征。 相关地图

1个回答

您如何定义高度相关?

通常人们会决定阈值,比如皮尔逊的相关系数。当 Pearson 相关系数的大小高于此值时,您可以将这两个特征称为相关。

以上将帮助您寻找成对相关性。要一次检测多个特征之间的相关性,您可以查看Fraction of Variance Unexplained或等效地查看Variance Inflation Factor

查看相关矩阵的核也可能是一个好主意,即对应于小特征值的矩阵的特征向量所跨越的空间。从技术上讲,内核对应于零特征值,但实际上最好将其定义为对应于小特征值。您的哪些功能对内核空间有很大的预测?那些应该首先被删除。本质上去除相关特征相当于使相关矩阵非奇异,相当于将其核的维数降为零,即没有特征值为零的特征向量。