PCA 作用于值,而 CA 作用于相对值。两者都适用于您提到的那种相对丰度数据(有一个主要警告,见下文)。使用 % 数据,您已经有了一个相对度量,但仍然会有差异。问你自己
- 你想强调丰富物种/分类群中的模式(即覆盖率大的物种),还是
- 你想专注于相对构图的模式吗?
如果是前者,请使用 PCA。如果后者使用 CA。这两个问题的意思是你想要
A = {50, 20, 10}
B = { 5, 2, 1}
被认为是不同的还是相同的?A
并且B
是两个样本,值是显示的三个分类群的百分比覆盖率。(这个例子结果很糟糕,假设有裸露的地面!;-) 由于使用了欧几里德距离,PCA 会认为这些非常不同,但 CA 会认为这两个样本非常相似,因为它们具有相同的相对轮廓。
这里最大的警告是数据的封闭组合性质。如果您有几个总和为 1 (100%) 的组(例如沙子、淤泥、粘土),那么这两种方法都不正确,您可以通过 Aitchison 的 Log-ratio PCA 进行更合适的分析,该 PCA 专为封闭组合而设计数据。(IIRC 要做到这一点,您需要以行和列为中心,并记录转换数据。)还有其他方法。如果您使用 R,那么一本有用的书是Analyzing Compositional Data with R。