我最近看到了几个主坐标分析 (PCoA) 投影图,它们显示了由各自的主坐标解释的“百分比变化”。鉴于分析不是在协方差矩阵上进行的(通常是在一些生态指标上进行的),暗示特征值的大小与解释的方差有任何关系似乎是错误的。
我的问题是,对特征值的最佳解释是什么?
我最近看到了几个主坐标分析 (PCoA) 投影图,它们显示了由各自的主坐标解释的“百分比变化”。鉴于分析不是在协方差矩阵上进行的(通常是在一些生态指标上进行的),暗示特征值的大小与解释的方差有任何关系似乎是错误的。
我的问题是,对特征值的最佳解释是什么?
在准备一个关于排序技术的研讨会时,我意识到我在解释主坐标分析的特征值时遇到了同样的困难,原因与你困惑的相同(@Paul Igor Costea),所以我开始四处寻找答案。
我有几本关于多元统计的书,不适合统计学上的胆小者,有时某些解释会在一些繁重的矩阵代数中丢失(对于 101 的排序来说不是最好的)。我找到的最佳答案实际上是Lengendre & Birks 2012 年在“使用湖泊沉积物跟踪环境变化”一章中对非专家的排序方法的概述。
特征向量通常更容易解释,因为它们本质上是给定对象沿给定轴的坐标(在缩小的空间中)。然而,特征值表示:
“沿该轴的对象的方差(不除以自由度)。” (Lengendre & Birks 2012)
这是我找到的最简洁准确的解释。虽然 PCoA 确实不是在协方差矩阵上而是在距离矩阵上计算的,但 PCoA 和 PCA 非常相似,下面的简单示例(来自同一章)解释了每种技术计算的特征值之间的数学关系:
“从一个对象到变量的数据矩阵
Y
,计算D
对象之间的欧几里得距离矩阵。使用矩阵运行 PCA,使用矩阵运行Y
PCoAD
。矩阵的 PCoA 的特征值与D
为矩阵计算的 PCA 特征值成正比Y
(它们的不同之处在于因子(n – 1)
[即自由度]),而 的 PCoA 的特征向量与 的 PCA 的D
矩阵F
[即特征向量的矩阵] 相同Y
。通常,人们不会在欧几里得距离矩阵上计算 PCoA,因为 PCA 的速度更快获取对象排序的方法Y
这保留了对象之间的欧几里得距离。这里只是作为一种理解欧几里得距离情况下 PCA 和 PCoA 之间关系的方法。PCoA 的真正兴趣是从更适合手头数据的某种其他形式的距离矩阵中获得对象的排序——例如,在组合成分数据的情况下,Steinhaus/Odum/Bray-Curtis 距离矩阵。”