PCA /对应分析中的“马蹄效应”和/或“拱形效应”是什么?

机器算法验证 主成分分析 探索性数据分析 生态 对应分析
2022-01-24 03:28:49

生态统计中有许多技术可以对多维数据进行探索性数据分析。这些被称为“协调”技术。许多与统计学中其他地方的常用技术相同或密切相关。也许典型的例子是主成分分析(PCA)。生态学家可能会使用 PCA 和相关技术来探索“梯度”(我并不完全清楚梯度是什么,但我已经阅读了一些关于它的内容。)

此页面上,主成分分析 (PCA)下的最后一项内容为:

  • PCA 对植被数据有一个严重的问题:马蹄效应。这是由沿梯度的物种分布的曲线性引起的。由于物种响应曲线通常是单峰的(即非常强烈的曲线),马蹄效应很常见。

在页面下方,在对应分析或倒数平均 (RA)下,它指的是“拱形效应”:

  • RA有一个问题:拱形效应。它也是由沿梯度分布的非线性引起的。
  • 拱形不像 PCA 的马蹄效应那么严重,因为渐变的末端没有卷积。

有人可以解释一下吗?我最近在低维空间(即对应分析和因子分析)中重新表示数据的图中看到了这种现象。

  1. “梯度”更普遍地对应于什么(即,在非生态环境中)?
  2. 如果您的数据发生这种情况,这是一个“问题”(“严重问题”)吗?为了什么?
  3. 应该如何解释出现马蹄形/拱形的输出?
  4. 是否需要采取补救措施?什么?原始数据的转换会有帮助吗?如果数据是有序评级怎么办?

答案可能存在于该站点的其他页面中(例如,对于PCACADCA)。我一直在努力解决这些问题。但是讨论是用非常陌生的生态术语和例子来表达的,因此很难理解这个问题。

1个回答

第一季度

生态学家一直在谈论梯度。梯度有很多种,但最好将它们视为您想要或对响应很重要的任何变量的某种组合。因此,梯度可以是时间、空间、土壤酸度或养分,或者更复杂的东西,例如以某种方式响应所需的一系列变量的线性组合。

我们谈论梯度是因为我们在空间或时间中观察物种,并且一大堆事物随着空间或时间而变化。

第二季度

我得出的结论是,在许多情况下,PCA 中的马蹄形并不是一个严重的问题,如果你了解它是如何产生的,并且当“梯度”实际上由 PC1 和 PC2 表示时不要做一些愚蠢的事情,比如拿 PC1(好吧它也分为更高的 PC,但希望二维表示是可以的)。

在加州,我想我也是这么想的(现在不得不考虑一下)。当数据中没有强二维时,该解决方案可以形成一个拱形,这样满足 CA 轴正交性要求的第一轴的折叠版本比数据中的另一个方向解释了更多的“惯性”。这可能更严重,因为这是由 PCA 组成的结构,其中拱形只是表示沿单一优势梯度的地点的物种丰度的一种方式。

我一直不太明白为什么人们如此担心 PC1 上的错误排序与强大的马蹄铁。我会反驳说,在这种情况下您不应该只使用 PC1,然后问题就消失了;PC1 和 PC2 上的坐标对消除了这两个轴中任何一个轴上的反转。

第三季度

如果我在 PCA 双图中看到马蹄形,我会将数据解释为具有单一的主要梯度或变化方向。

如果我看到拱门,我可能会得出相同的结论,但我会非常谨慎地试图解释 CA 轴 2。

我不会应用 DCA - 它只是将拱形扭曲(在最好的情况下),这样您就不会在二维图中看到奇怪的东西,但在许多情况下,它会产生其他虚假结构,例如钻石或喇叭形状。 DCA空间中的样本排列。例如:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

在此处输入图像描述

我们看到典型的样本点向图的左侧散开。

第四季度

我建议这个问题的答案取决于你分析的目的。如果拱门/马蹄形是由单个主导梯度引起的,那么不必将其表示为个 PCA 轴,如果我们可以估计一个表示站点/样本沿梯度的位置的变量,那将是有益的。m

这将建议在数据的高维空间中找到非线性方向。一种这样的方法是 Hastie & Stuezel 的主曲线,但其他非线性流形方法可能就足够了。

例如,对于一些病理数据

在此处输入图像描述

我们看到了一个强大的马蹄铁。主曲线试图通过数据的 m 维中的平滑曲线来恢复这种潜在的梯度或样本的排列/排序。下图显示了迭代算法如何收敛于近似底层梯度的东西。(我认为它偏离了图顶部的数据,以便更接近更高维度的数据,部分原因是曲线被声明为主曲线的自洽标准。)

在此处输入图像描述

我有更多详细信息,包括我从中获取这些图像的博客文章中的代码。但这里的要点是主曲线很容易恢复样本的已知顺序,而 PC1 或 PC2 本身则不能。

在 PCA 案例中,通常在生态学中应用转换。流行的变换是在对变换后的数据计算欧几里得距离时可以考虑返回一些非欧几里得距离的变换。例如,海灵格距离是

DHellinger(x1,x2)=j=1p[y1jy1+y2jy2+]2

其中个物种的丰度个样本中所有物种的丰度之和。如果我们将数据转换为比例并应用平方根变换,那么欧几里得距离保持 PCA 将表示原始数据中的 Hellinger 距离。yijjiyi+i

马蹄铁在生态学中早已为人所知和研究;一些早期的文学作品(加上更现代的外观)是

主要的主曲线参考是

前者是一个非常生态的展示。