使用主成分分析与对应分析

机器算法验证 r 主成分分析 多元分析 对应分析
2022-03-03 13:16:26

我正在分析一个关于潮间带社区的数据集。数据是样方中(海藻、藤壶、贻贝等)的百分比覆盖率。我习惯于从物种数量的角度考虑对应分析 (CA),而将主成分分析 (PCA) 视为对线性环境(而非物种)趋势更有用的东西。我真的没有运气弄清楚 PCA 或 CA 是否更适合百分比覆盖(找不到任何论文),我什至不确定如何分配最高 100% 的内容?

我熟悉粗略的指导方针,如果第一个去趋势对应分析 (DCA) 轴的长度大于 2,那么您可以放心地假设应该使用 CA。DCA 轴 1 的长度为 2.17,我觉得没有帮助。

1个回答

PCA 作用于值,而 CA 作用于相对值。两者都适用于您提到的那种相对丰度数据(有一个主要警告,见下文)。使用 % 数据,您已经有了一个相对度量,但仍然会有差异。问你自己

  • 你想强调丰富物种/分类群中的模式(即覆盖率大的物种),还是
  • 你想专注于相对构图的模式吗?

如果是前者,请使用 PCA。如果后者使用 CA。这两个问题的意思是你想要

A = {50, 20, 10}
B = { 5,  2,  1}

被认为是不同的还是相同的?A并且B是两个样本,值是显示的三个分类群的百分比覆盖率。(这个例子结果很糟糕,假设有裸露的地面!;-) 由于使用了欧几里德距离,PCA 会认为这些非常不同,但 CA 会认为这两个样本非常相似,因为它们具有相同的相对轮廓。

这里最大的警告是数据的封闭组合性质。如果您有几个总和为 1 (100%) 的组(例如沙子、淤泥、粘土),那么这两种方法都不正确,您可以通过 Aitchison 的 Log-ratio PCA 进行更合适的分析,该 PCA 专为封闭组合而设计数据。(IIRC 要做到这一点,您需要以行列为中心,并记录转换数据。)还有其他方法。如果您使用 R,那么一本有用的书是Analyzing Compositional Data with R