第一季度
生态学家一直在谈论梯度。梯度有很多种,但最好将它们视为您想要或对响应很重要的任何变量的某种组合。因此,梯度可以是时间、空间、土壤酸度或养分,或者更复杂的东西,例如以某种方式响应所需的一系列变量的线性组合。
我们谈论梯度是因为我们在空间或时间中观察物种,并且一大堆事物随着空间或时间而变化。
第二季度
我得出的结论是,在许多情况下,PCA 中的马蹄形并不是一个严重的问题,如果你了解它是如何产生的,并且当“梯度”实际上由 PC1 和 PC2 表示时不要做一些愚蠢的事情,比如拿 PC1(好吧它也分为更高的 PC,但希望二维表示是可以的)。
在加州,我想我也是这么想的(现在不得不考虑一下)。当数据中没有强二维时,该解决方案可以形成一个拱形,这样满足 CA 轴正交性要求的第一轴的折叠版本比数据中的另一个方向解释了更多的“惯性”。这可能更严重,因为这是由 PCA 组成的结构,其中拱形只是表示沿单一优势梯度的地点的物种丰度的一种方式。
我一直不太明白为什么人们如此担心 PC1 上的错误排序与强大的马蹄铁。我会反驳说,在这种情况下您不应该只使用 PC1,然后问题就消失了;PC1 和 PC2 上的坐标对消除了这两个轴中任何一个轴上的反转。
第三季度
如果我在 PCA 双图中看到马蹄形,我会将数据解释为具有单一的主要梯度或变化方向。
如果我看到拱门,我可能会得出相同的结论,但我会非常谨慎地试图解释 CA 轴 2。
我不会应用 DCA - 它只是将拱形扭曲(在最好的情况下),这样您就不会在二维图中看到奇怪的东西,但在许多情况下,它会产生其他虚假结构,例如钻石或喇叭形状。 DCA空间中的样本排列。例如:
library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA
我们看到典型的样本点向图的左侧散开。
第四季度
我建议这个问题的答案取决于你分析的目的。如果拱门/马蹄形是由单个主导梯度引起的,那么不必将其表示为个 PCA 轴,如果我们可以估计一个表示站点/样本沿梯度的位置的变量,那将是有益的。m
这将建议在数据的高维空间中找到非线性方向。一种这样的方法是 Hastie & Stuezel 的主曲线,但其他非线性流形方法可能就足够了。
例如,对于一些病理数据
我们看到了一个强大的马蹄铁。主曲线试图通过数据的 m 维中的平滑曲线来恢复这种潜在的梯度或样本的排列/排序。下图显示了迭代算法如何收敛于近似底层梯度的东西。(我认为它偏离了图顶部的数据,以便更接近更高维度的数据,部分原因是曲线被声明为主曲线的自洽标准。)
我有更多详细信息,包括我从中获取这些图像的博客文章中的代码。但这里的要点是主曲线很容易恢复样本的已知顺序,而 PC1 或 PC2 本身则不能。
在 PCA 案例中,通常在生态学中应用转换。流行的变换是在对变换后的数据计算欧几里得距离时可以考虑返回一些非欧几里得距离的变换。例如,海灵格距离是
DHellinger(x1,x2)=∑j=1p[y1jy1+−−−−√−y2jy2+−−−−√]2−−−−−−−−−−−−−−−−−−⎷
其中是个物种的丰度,个样本中所有物种的丰度之和。如果我们将数据转换为比例并应用平方根变换,那么欧几里得距离保持 PCA 将表示原始数据中的 Hellinger 距离。yijjiyi+i
马蹄铁在生态学中早已为人所知和研究;一些早期的文学作品(加上更现代的外观)是
主要的主曲线参考是
前者是一个非常生态的展示。