我不是社区生态学家,但这些天我正在研究社区生态数据。
除了这些距离的数学之外,我无法理解的是每个距离的使用标准以及可以在什么情况下应用它。例如,如何处理计数数据?如何将两个位置之间的斜角转换为距离?还是两个地方的温度或降雨量?每个距离的假设是什么,什么时候有意义?
我不是社区生态学家,但这些天我正在研究社区生态数据。
除了这些距离的数学之外,我无法理解的是每个距离的使用标准以及可以在什么情况下应用它。例如,如何处理计数数据?如何将两个位置之间的斜角转换为距离?还是两个地方的温度或降雨量?每个距离的假设是什么,什么时候有意义?
不幸的是,在大多数情况下,您的问题并没有明确的答案。也就是说,对于任何给定的应用程序,肯定有许多距离度量会产生相似且准确的答案。考虑到有几十个甚至可能数百个有效距离度量正在积极使用,您可以找到“正确”距离的概念并不是考虑选择适当距离度量问题的有效方法。
相反,我会专注于不选择错误的距离度量。您是否希望您的距离反映“绝对幅度”(例如,您有兴趣使用距离来识别具有相似平均值的股票),或反映响应的整体形状(例如股票价格随时间波动相似,但可能有完全不同的原始值)?例如,前一种情况将指示诸如曼哈顿和欧几里德的距离,而后者将指示相关距离。
如果您知道数据的协方差结构,那么马氏距离可能更合适。对于纯分类数据,有许多建议的距离,例如匹配距离。因为混合分类和连续的高尔距离很受欢迎,(尽管在我看来在理论上有些不令人满意)。
最后,在我看来,如果您证明您的结果和结论对于距离度量的选择是稳健的(当然,在适当距离的子集中),您的分析将得到加强。如果您的分析随着使用的距离度量的细微变化而发生巨大变化,则应进行进一步研究以确定不一致的原因。
选择合适的距离不是一项基本任务。当我们想对一个数据集进行聚类分析时,使用不同的距离可能会出现不同的结果,因此选择哪个距离非常重要,因为我们可以制作一个虚假的好人工制品来很好地捕捉可变性,但实际上没有感觉我们的问题。
当我有连续的数值变量并且我想反映绝对距离时,欧几里得距离是合适的。这个距离考虑了每个变量并且没有消除冗余,所以如果我有三个解释相同(相关)的变量,我会将这个影响加权三。而且,这个距离不是尺度不变的,所以通常我必须先按比例来使用这个距离。
生态示例:我们在很多地方都有不同的观察,专家们对其中一些微生物、物理和化学因素进行了采样。我们想在生态系统中找到模式。这些因素具有很高的相关性,但我们知道每个人都是相关的,所以我们不想删除这些冗余。我们使用带有缩放数据的欧几里得距离来避免单位的影响。
当我有连续的数值变量并且我想反映绝对距离但我们想消除冗余时,马氏距离是合适的。如果我们有重复的变量,它们的重复效应就会消失。
当我们想要强调变量之间的差异时,当我们想要区分轮廓时,Hellinger族、物种轮廓和弦距离是合适的。这些距离按每个观察的总量加权,以这样的方式,当变量变化时,距离很小,个体更相似,尽管绝对量级非常不同。小心!这些距离很好地反映了剖面之间的差异,但失去了幅度效应。当我们有不同的样本量时,它们可能非常有用。
生态示例:我们想研究许多土地的动物群,并且我们有一个腹足类动物清单的数据矩阵(行中的采样位置和列中的物种名称)。该矩阵的特点是有许多零和不同的大小,因为一些地方有一些物种,而另一些地方有其他物种。我们可以使用 Hellinger 距离。
Bray-Curtis非常相似,但当我们想要区分轮廓并考虑相对大小时,它更合适。
关于曼哈顿距离:Kaufman、Leonard 和 Peter J. Rousseeuw。“在数据中寻找组:聚类分析简介。” (2005 年)。
建议在以下情况下使用曼哈顿距离,例如,第一个变量中的差异为 1,第二个变量中的差异为 3,与第一个变量中的差异为 2,第二个变量中的差异为 2 相同。