“PCA(主成分分析)对数据进行分析”是什么意思?

机器算法验证 主成分分析
2022-04-01 05:55:46

我正在阅读一些笔记,它说 PCA 可以“控制数据”。他们对我的定义是“球化数据”是将每个维度除以相应特征值的平方根。

我假设“维度”是指我们投影到的每个基向量(即我们投影到的特征向量)。因此,我猜他们正在做:

ui=uieigenValue(ui)

在哪里ui是特征向量之一(即主成分之一)。然后使用那个新向量,我假设他们正在投影我们拥有的原始数据,比如说x(i)z(i). 所以现在的投影点是:

z(i)=uix(i)

他们声称这样做可以确保所有特征都具有相同的方差。

但是,我什至不确定我对球形的含义的解释是否正确,并想检查是否正确。此外,即使它是正确的,这样做有什么意义呢?我知道他们声称它确保每个人都有相同的差异,但是,我们为什么要这样做,它是如何实现的?

1个回答

你的理解是对的。看看这个代表数据点的各种可能性的数字:http: //shapeofdata.files.wordpress.com/2013/02/pca22.png

它们看起来是椭圆形的。如果您按照上面的描述进行操作,即在它们分布最多的方向上压缩点(图像中大约 45 度线),这些点将位于一个圆圈中(更高维度的球体)。

球化数据的一个原因是在进行预测和了解哪些坐标很重要时。说你想预测y使用x1x2, 你得到系数值β1β2IEyβ1x1+β2x2. 现在如果x1x2具有相同的方差,即它们大致呈球形分布,您会发现β1=1尽管β2=10,你可以把这句话解释为x2影响y多于x1. 但是,如果它们的比例不同,并且x1被分发了 10 倍以上x2, 那么你会得到上面的值β1β2即使他们都影响了y大致相同。总而言之,您“球化”或“标准化”以从其系数推断变量的重要性。