如何将高维空间投影到二维平面?

机器算法验证 数据可视化 主成分分析 多维尺度
2022-03-22 00:44:50

我在 N 维空间中有一组数据点。此外,我在同一个 N 维空间中也有一个质心。是否有任何方法可以让我将这些数据点投影到二维空间中,同时将它们的相对距离信息保留在原始空间中。PCA 是正确的吗?

3个回答

解决您的问题的通用框架称为降维。您希望将数据从 N 维投影到 2 维,同时保留数据中的“基本信息”。最合适的方法取决于数据的分布,即 N 维流形。PCA 将使用最小二乘准则拟合平面。这对于“瑞士卷”示例可能效果不佳:瑞士卷

更现代的方法包括内核 PCA、LLE、扩散图和稀疏字典表示。关于距离保持,一些方法可以保持非欧几里得距离。

如上一个答案所述,降维方法有多种,要考虑的重要一点是您要表示什么-您对欧几里得距离度量感兴趣吗?还是样本之间的相似性度量?

对于前者,PCA 可能是合适的。它通常用于连续测量,例如样品(动物、植物等)的测量。不过,我也会在较早的答案中研究更现代的提及。

对于后者,您可能会尝试使用非欧几里德距离度量来比较相似性,存在一些好的方法,例如主成分排序 (PCoA) 和非度量多维缩放 (NMDS)。当您比较不同区域之间的生态群落时,您可能会使用这些的一个示例,并且您发现了许多不同类型的生物。因此,您的数据是“计数”数据。有许多相似性指标,例如 Jaccard、Sorensen、Bray-Curtis,可以有效地让您估计这些站点在其生物组成方面的相似程度。PCoA 和 NMDS 基本上可以让您绘制样本(站点)以表示生态距离(相似性),并且您在每个轴上都有站点得分。

有很多用于多元分析的好书和其他资源。在 Google 上搜索“圣职”。此外,还有一个名为“vegan”的 R 包非常适合实际执行大量此类工作。

您的问题听起来像是用于多维缩放的教科书应用程序可以在这里找到一个很好的介绍:http: //www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm

当然你可以试试 PCA。但 PCA 无意将相对距离信息保留在原始空间中。