我在 N 维空间中有一组数据点。此外,我在同一个 N 维空间中也有一个质心。是否有任何方法可以让我将这些数据点投影到二维空间中,同时将它们的相对距离信息保留在原始空间中。PCA 是正确的吗?
如何将高维空间投影到二维平面?
机器算法验证
数据可视化
主成分分析
多维尺度
2022-03-22 00:44:50
3个回答
解决您的问题的通用框架称为降维。您希望将数据从 N 维投影到 2 维,同时保留数据中的“基本信息”。最合适的方法取决于数据的分布,即 N 维流形。PCA 将使用最小二乘准则拟合平面。这对于“瑞士卷”示例可能效果不佳:瑞士卷。
更现代的方法包括内核 PCA、LLE、扩散图和稀疏字典表示。关于距离保持,一些方法可以保持非欧几里得距离。
如上一个答案所述,降维方法有多种,要考虑的重要一点是您要表示什么-您对欧几里得距离度量感兴趣吗?还是样本之间的相似性度量?
对于前者,PCA 可能是合适的。它通常用于连续测量,例如样品(动物、植物等)的测量。不过,我也会在较早的答案中研究更现代的提及。
对于后者,您可能会尝试使用非欧几里德距离度量来比较相似性,存在一些好的方法,例如主成分排序 (PCoA) 和非度量多维缩放 (NMDS)。当您比较不同区域之间的生态群落时,您可能会使用这些的一个示例,并且您发现了许多不同类型的生物。因此,您的数据是“计数”数据。有许多相似性指标,例如 Jaccard、Sorensen、Bray-Curtis,可以有效地让您估计这些站点在其生物组成方面的相似程度。PCoA 和 NMDS 基本上可以让您绘制样本(站点)以表示生态距离(相似性),并且您在每个轴上都有站点得分。
有很多用于多元分析的好书和其他资源。在 Google 上搜索“圣职”。此外,还有一个名为“vegan”的 R 包非常适合实际执行大量此类工作。
您的问题听起来像是用于多维缩放的教科书应用程序。可以在这里找到一个很好的介绍:http: //www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm
当然你可以试试 PCA。但 PCA 无意将相对距离信息保留在原始空间中。