我有几个关于 PCA 的快速问题:
- PCA 是否假设数据集是高斯的?
- 当我将 PCA 应用于固有的非线性数据时会发生什么?
给定一个数据集,该过程首先进行均值归一化,将方差设置为 1,取一个 SVD,降低秩,最后将数据集映射到新的降秩空间。在新空间中,每个维度对应一个最大方差的“方向”。
- 但是,该数据集在新空间中的相关性是否始终为零,或者仅对于本质上为高斯的数据才如此?
假设我有两个数据集,“A”和“B”,其中“A”对应于从高斯随机采样的点,而“B”对应于从另一个分布(比如泊松)随机采样的点。
- PCA(A) 与 PCA(B) 相比如何?
- 通过查看新空间中的点,我如何确定 PCA(A) 对应于从高斯采样的点,而 PCA(B) 对应于从泊松采样的点?
- “A”中点的相关性是否为 0?
- “B”中点的相关性也是0吗?
- 更重要的是,我问的是“正确”的问题吗?
- 我应该查看相关性,还是应该考虑其他指标?