非高斯数据的 PCA

机器算法验证 主成分分析 svd
2022-02-03 22:01:31

我有几个关于 PCA 的快速问题:

  • PCA 是否假设数据集是高斯的?
  • 当我将 PCA 应用于固有的非线性数据时会发生什么?

给定一个数据集,该过程首先进行均值归一化,将方差设置为 1,取一个 SVD,降低秩,最后将数据集映射到新的降秩空间。在新空间中,每个维度对应一个最大方差的“方向”。

  • 但是,该数据集在新空间中的相关性是否始终为零,或者仅对于本质上为高斯的数据才如此?

假设我有两个数据集,“A”和“B”,其中“A”对应于从高斯随机采样的点,而“B”对应于从另一个分布(比如泊松)随机采样的点。

  • PCA(A) 与 PCA(B) 相比如何?
  • 通过查看新空间中的点,我如何确定 PCA(A) 对应于从高斯采样的点,而 PCA(B) 对应于从泊松采样的点?
  • “A”中点的相关性是否为 0?
  • “B”中点的相关性也是0吗?
  • 更重要的是,我问的是“正确”的问题吗?
  • 我应该查看相关性,还是应该考虑其他指标?
4个回答

您已经在这里有几个很好的答案(对@Cam.Davidson.Pilon 和@MichaelChernick 都+1)。让我提出一些有助于我思考这个问题的观点。

首先,PCA 对相关矩阵进行运算。因此,在我看来,重要的问题是使用相关矩阵来帮助您思考数据是否有意义。例如,皮尔逊积矩相关性评估两个变量之间的线性关系;如果您的变量是相关的,但不是线性的,则相关性不是衡量关系强度的理想指标。是关于相关性和非正态数据的关于 CV 的一个很好的讨论。)

其次,我认为了解 PCA 发生了什么的最简单方法是您只是在旋转轴。当然,你可以做更多的事情,不幸的是,PCA 与因子分析混淆了(这肯定有更多的事情要做)。尽管如此,没有花里胡哨的普通旧 PCA 可以被认为如下:

  • 您在一张方格纸上以二维方式绘制了一些点;
  • 你有一个透明度,上面画着正交轴,原点有一个针孔;
  • 您将透明度(即针孔)的原点居中在上,然后将铅笔尖穿过针孔以将其固定到位; (x¯,y¯)
  • 然后旋转透明度,直到点(根据透明度的轴而不是原始轴进行索引时)不相关。

这不是 PCA 的完美比喻(例如,我们没有将方差重新调整为 1)。但确实给了人们基本的想法。现在的重点是使用该图像来考虑如果数据一开始不是高斯的,结果会是什么样子;这将帮助您确定此过程是否值得进行。希望有帮助。

我可以给出部分解决方案并为您提供答案第二段第三个问题,关于新数据是否相关。简短的回答是否定的,新空间中的数据不相关。要查看,视为两个独特的主成分。那么是数据新空间中的两个维度。w1w2Xw1Xw2X

Cov(Xw1,Xw2)=E[(Xw1)T(Xw2)]E[Xw1]TE[Xw2]
由于是常数,第二项是 0 (正如你所说,我们)。第一项可以重写为 因为彼此正交,所以整个项为零,假设是有限的。 这完全独立于任何关于正态性的假设。wiX
w1TE[XTX]w2=Var(X)w1Tw2=0
wiVar(X)

我认为对常态的依赖归结为关于方差的整个辩论。这是一个直观的论点:首先,请注意方差是对称分布的“传播”的一个非常好的度量。但是当我们考虑偏斜或不对称分布时,它可能会失败。现在回想一下,PCA 试图最大化投影维度的方差。如果是正态的,那么仍然是正态的,即仍然是对称的并且方差工作得很好。但是如果不是正态的,比如 Poisson,的方差不需要非常具有描述性。XXwXXw

举一个方差(和标准差)分解的例子,考虑帕累托分布的增长,方差迅速下降,但这仅仅是因为数据开始围绕小均值分组。但我们知道,我们可以很容易地看到帕累托分布的大幅波动,而小方差无法很好地描述这一点。α

PCA 中没有假定线性或正态性。这个想法只是将 p 维数据集中的变化分解为正交分量,这些分量根据解释的方差量进行排序。

在此处阅读第 7 页:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

他们注意到 PCA 假设我们所解释的任何内容的分布都可以仅用均值(零)和方差来描述,他们说这只能是正态分布。

(基本上除了Cam的回答,但我没有足够的声誉来评论:)