如何解释标有特定数据维度的 PCA 点

计算科学 机器学习
2021-12-10 06:30:52

我自己做过一些 PCA,并且熟悉如何计算和应用 PCA 组件的基本概念。但是,我正在从事一个研究项目,并且对如何解释我在许多使用挥发物的 SPME 分析的论文中看到的常见类型的图表感到困惑。我读过的所有论文都没有详细说明如何具体解释这些图表,并且试图在其他地方找到更多信息只会导致对 PCA 解释的一般解释,这不是我遇到的问题。

具体来说,许多研究人员提供 PCA 图,其中图的点标有分析中包含的特定化合物。例如,在对不同醋中存在的酸进行分析时,相关的 PCA 图表为每个单独的酸标记了点。

PCA 图的示例

我是否应该将这些标记点解释为图中该给定化合物处于其观察到的最高信号的位置?因此,如果 (0.75, -1.15) 的某个点被标记为“but1one”,那么就会出现一些仅包含 but1one 的假设样本?

1个回答

您所看到的很可能是以下内容。PCA 显然用于在某些提供的数据集中查找最主要的特征,您可以将每个特征视为您可能用来表示数据集的基础的一部分。鉴于您的数据集是一堆点n-dimensions 并且您使用 PCA 来查找kn该数据集中的特征,然后您可以投影原始数据中的任何数据n维度空间降低k维空间有一些准确性损失,但希望不会太大,因为您在描述原始数据集时选择了带有大量方差权重的特征。

所以你可能在上面看到的是研究人员采用了多种化合物,首先以原始形式表示它们(零均值)n-dimension 版本,然后使用您的k来自 PCA 的特征将它们投影到k维空间,在上图中只是k=2使用两个最主要的 PCA 特征的尺寸。然后他们根据每个维度减少向量中对应的向量来标记它们n维度表示。