我正在阅读一些笔记,它说 PCA 可以“控制数据”。他们对我的定义是“球化数据”是将每个维度除以相应特征值的平方根。
我假设“维度”是指我们投影到的每个基向量(即我们投影到的特征向量)。因此,我猜他们正在做:
在哪里是特征向量之一(即主成分之一)。然后使用那个新向量,我假设他们正在投影我们拥有的原始数据,比如说至. 所以现在的投影点是:
他们声称这样做可以确保所有特征都具有相同的方差。
但是,我什至不确定我对球形的含义的解释是否正确,并想检查是否正确。此外,即使它是正确的,这样做有什么意义呢?我知道他们声称它确保每个人都有相同的差异,但是,我们为什么要这样做,它是如何实现的?