机器算法验证 - 使用主成分分析与对应分析 - 吾爱随笔录

使用主成分分析与对应分析

机器算法验证 r 主成分分析多元分析对应分析

2022-03-03 13:16:26

我正在分析一个关于潮间带社区的数据集。数据是样方中（海藻、藤壶、贻贝等）的百分比覆盖率。我习惯于从物种数量的角度考虑对应分析 (CA)，而将主成分分析 (PCA) 视为对线性环境（而非物种）趋势更有用的东西。我真的没有运气弄清楚 PCA 或 CA 是否更适合百分比覆盖（找不到任何论文），我什至不确定如何分配最高 100% 的内容?

我熟悉粗略的指导方针，如果第一个去趋势对应分析 (DCA) 轴的长度大于 2，那么您可以放心地假设应该使用 CA。DCA 轴 1 的长度为 2.17，我觉得没有帮助。

1个回答

PCA 作用于值，而 CA 作用于相对值。两者都适用于您提到的那种相对丰度数据（有一个主要警告，见下文）。使用 % 数据，您已经有了一个相对度量，但仍然会有差异。问你自己

你想强调丰富物种/分类群中的模式（即覆盖率大的物种），还是
你想专注于相对构图的模式吗？

如果是前者，请使用 PCA。如果后者使用 CA。这两个问题的意思是你想要

A = {50, 20, 10}
B = { 5,  2,  1}

被认为是不同的还是相同的？A并且B是两个样本，值是显示的三个分类群的百分比覆盖率。（这个例子结果很糟糕，假设有裸露的地面！;-) 由于使用了欧几里德距离，PCA 会认为这些非常不同，但 CA 会认为这两个样本非常相似，因为它们具有相同的相对轮廓。

这里最大的警告是数据的封闭组合性质。如果您有几个总和为 1 (100%) 的组（例如沙子、淤泥、粘土），那么这两种方法都不正确，您可以通过 Aitchison 的 Log-ratio PCA 进行更合适的分析，该 PCA 专为封闭组合而设计数据。（IIRC 要做到这一点，您需要以行和列为中心，并记录转换数据。）还有其他方法。如果您使用 R，那么一本有用的书是Analyzing Compositional Data with R。

其它你可能感兴趣的问题

上一篇广义线性混合模型：模型选择下一篇交叉验证统计的置信区间