是否有更多信息的 PCA 图的示例?

机器算法验证 数据可视化 主成分分析
2022-04-06 00:14:36

我经常对科学文献中的 PCA 图感到失望。通常,PCA 图不提供变量及其权重的细分,就像 PCA1(解释 70% 方差)、PCA2(解释 10% 方差)之类的东西。如何判断哪些变量被强加载到组件中?

是否有 PCA 可视化可以提供对数据的更多洞察?

3个回答

在我看来,这取决于你想从 PCA 中得到什么,但是有两个简单的情节很常见并且可能会有所帮助:

  • 要知道哪些变量在哪个主成分中具有高负载,一个简单的负载条形图(作为小倍数)将非常清楚地显示这一点。

  • 为了寻找样本之间的模式,分数的散点图有时会有所帮助(例如,在遗传学中,当您对一群个体进行基因分型时,PC1 和 PC2 的散点图通常用于寻找人口模式)。

如果您先验地知道变量或样本分组,请为点和条着色。

干杯,

米。

附言。我希望包含链接的形式不错,但我已经写了一篇关于这些情节的小帖子,并将它们制作到我最喜欢的软件中。http://martinsbioblogg.wordpress.com/2013/06/26/using-r-two-plots-of-principal-component-analysis/

这里有一些线索。

  1. 根据变量的不同,载荷本身可能会提供非常丰富的信息。例如,在源自基因表达数据的 PCA 中,我可以将负载与 Gene Ontology 结合使用,以测试具有大绝对负载的变量中特定术语的富集。

  2. 如果您只有几个变量,双图非常有用,因为它们可以清楚地显示哪些变量对哪个组件很重要。但是,如果变量太多,它们就不是很实用(我的包pca3d允许从每个组件中选择 N 个“top”变量以显示在图中;它被称为“pca3d”但也有一个“pca2d”功能对于常规的 2D 图)。

  3. 如果您有将样本分成不同组的分类变量,那么简单地在标准图上为点着色可能会提供非常丰富的信息(这是 pca3d 的主要目的)。

我发现双标图非常有用。双图表示由两个(或三个)分量定义的空间中的变量和观察值。代表每个变量的向量的长度和方向告诉您它在这两个组件上加载了多少,直接解决了第一段末尾的问题。

您可以通过 google找到有关Wikipedia和许多示例/代码的更多信息。