我目前正在阅读 t-SNE 可视化技术,有人提到使用主成分分析 (PCA) 可视化高维数据的缺点之一是它只能保留点之间的大成对距离。在高维空间中相距很远的意义点在低维子空间中也会显得相距很远,但除此之外,所有其他成对距离都会被搞砸。
有人可以帮我理解为什么会这样以及它在图形上意味着什么吗?
我目前正在阅读 t-SNE 可视化技术,有人提到使用主成分分析 (PCA) 可视化高维数据的缺点之一是它只能保留点之间的大成对距离。在高维空间中相距很远的意义点在低维子空间中也会显得相距很远,但除此之外,所有其他成对距离都会被搞砸。
有人可以帮我理解为什么会这样以及它在图形上意味着什么吗?
考虑以下数据集:
PC1 轴最大化投影的方差。所以在这种情况下,它显然会从左下角到右上角对角线:
原始数据集中最大的成对距离在这两个离群点之间;请注意,它几乎完全保留在 PC1 中。每个离群点和所有其他点之间的成对距离较小但仍然很大;这些也保存得相当好。但是,如果您查看中心簇中点之间更小的成对距离,您会发现其中一些点被严重扭曲。
我认为这给出了正确的直觉: PCA 找到具有最大方差的低维子空间。最大方差意味着子空间将倾向于对齐,例如靠近远离中心的点;因此,最大的成对距离往往会被很好地保留,而较小的成对距离则较少。
但是,请注意,这不能变成正式的论点,因为事实上它不一定是正确的。看看我在主成分分析和多维缩放之间有什么区别?如果你采取从上图中的点,构造一个成对距离矩阵并询问保持距离尽可能接近的一维投影是什么,则答案由 MDS 解决方案给出,而不是由 PC1 给出。但是,如果您考虑一个成对中心标量积矩阵,那么它实际上最好由 PC1 精确保存(参见我的答案以获得证明)。有人可以争辩说,大的成对距离通常也意味着大的标量积。事实上,其中一种 MDS 算法(经典/Torgerson MDS)愿意明确地做出这个假设。
所以总结一下: