PCA 只保留较大的成对距离是什么意思?

机器算法验证 机器学习 数据可视化 主成分分析 特纳
2022-03-01 06:46:16

我目前正在阅读 t-SNE 可视化技术,有人提到使用主成分分析 (PCA) 可视化高维数据的缺点之一是它只能保留点之间的大成对距离。在高维空间中相距很远的意义点在低维子空间中也会显得相距很远,但除此之外,所有其他成对距离都会被搞砸。

有人可以帮我理解为什么会这样以及它在图形上意味着什么吗?

1个回答

考虑以下数据集:

PCA 数据集

PC1 轴最大化投影的方差。所以在这种情况下,它显然会从左下角到右上角对角线:

PCA 仅保留较大的成对距离

原始数据集中最大的成对距离在这两个离群点之间;请注意,它几乎完全保留在 PC1 中。每个离群点和所有其他点之间的成对距离较小但仍然很大;这些也保存得相当好。但是,如果您查看中心簇中点之间更小的成对距离,您会发现其中一些点被严重扭曲。

我认为这给出了正确的直觉: PCA 找到具有最大方差的低维子空间。最大方差意味着子空间将倾向于对齐,例如靠近远离中心的点;因此,最大的成对距离往往会被很好地保留,而较小的成对距离则较少。

但是,请注意,这不能变成正式的论点,因为事实上它不一定是正确的。看看我在主成分分析和多维缩放之间有什么区别?如果你采取10从上图中的点,构造一个10×10成对距离矩阵并询问保持距离尽可能接近的一维投影是什么,则答案由 MDS 解决方案给出,而不是由 PC1 给出但是,如果您考虑一个10×10成对中心标量积矩阵,那么它实际上最好由 PC1 精确保存(参见我的答案以获得证明)。有人可以争辩说,大的成对距离通常也意味着大的标量积。事实上,其中一种 MDS 算法(经典/Torgerson MDS)愿意明确地做出这个假设。

所以总结一下:

  1. PCA 旨在保留成对标量积的矩阵,即原始标量积和重构标量积之间的平方差之和应该是最小的。
  2. 这意味着它将宁愿保留具有最大绝对值的标量产品,并且不太关心那些具有较小绝对值的产品,因为它们对平方误差之和的添加较少。
  3. 因此,PCA 比较小的更能保留较大的标量产品。
  4. 成对距离将仅保留与标量积相似的程度,这通常但并非总是如此。如果是这种情况,那么较大的成对距离也将比较小的成对距离保存得更好。