PCA 第一维没有捕捉到足够的方差

数据挖掘 主成分分析
2022-03-03 04:10:21

我正在做一个 PCA 作为数据探索步骤,我意识到两个第一主成分仅捕获 25% 的方差,十个第一主成分捕获大约 60% 的信息,是否值得在知道它们的情况下解释这些轴没有捕捉到足够的信息 在此处输入图像描述

1个回答

你不说有多少原始功能?哪里有 10、50、5000 万?上述 10 个主成分捕获了 62.3% 的方差,因此我们可以确定有超过 10 个原始特征。然而,我们将假设没有更多(假设大约 20 个),让我们考虑发生了什么。

使用 PCA,您希望将有用信息与噪音区分开来。通过仅采用示例中的前两个组件,您将所有其他信息作为噪声丢弃。

这取决于应用程序,但我会说 25% 是永远不够的(我认为会提出严肃的问题,因为你为什么有)。那么问题就变成了发生了什么?好吧,让我们考虑两种极端情况:一组不相关的特征和一组完全相关的特征。考虑前三个不相关的特征:

1 0 0 
0 1 0 
0 0 1

总方差为 3。特征值为

1.000
1.000
1.000

因此,每个分量代表方差的 1/3,并且它们是相等的。现在让我们考虑另一个极端,所有特征都是高度相关的,即相关矩阵

1.000 1.000 1.000
1.000 1.000 1.000
1.000 1.000 1.000

特征值为

3.000
0.000
0.000

因此,第一个主成分包含所有信息,这三个特征可以用一个潜在变量来表征。

那么,为什么这是相关的呢?那么在您的数据集中,您的特征值都具有相似的大小。这表明原始数据中的特征不是很相关(如上面的第一个示例,查看原始相关矩阵的非对角元素,它们可能接近于零),因此预计需要许多主成分,因为原始特征空间中几乎没有共享信息。

这当然假设我们只有少量的原始特征。如果你有 5000 万个特征,那么仅在 10 个潜在变量中捕获 62.3% 就相当不错了,