检测样本中是否实际存在两个总体

机器算法验证 样本 wilcoxon-mann-whitney 检验 人口 混合分布
2022-03-31 09:12:13

我一直在计算化石叶片材料上的气孔,以应用气孔指数和二氧化碳之间的已知关系。我认为这些材料都来自一个种群(给定地点的一个物种)。然而,对数据的探索表明可能有两个人群。我将这些解释为我所针对的物种和杂交种,它们很难通过叶子形态来区分(由于地层学的原因,我们可以排除这些实际上是两个不同的时间,因此是不同的“真实”二氧化碳值)。

我已经能够找到有关如何确定两个样本是否来自不同人群的信息,但如果您采集了一个样本并且似乎有两个不同的人群,则无法找到。划分分布(比如将其划分为 6.5)并使用 Wilcoxon-Mann-Whitney 检验来确定两个样本是否显着不同是否可以接受?

确定这些是否真的是两个群体的公正方法是什么?

这些是 41 片叶子的气孔指数结果。

[1] 5.172414 5.246914 5.276382 5.278592 5.288462 5.306122 5.323194 5.325444 5.357143 5.366726 [11] 5.367232 5.376344 5.384615 5.504587 6.053269 6.854839 6.910569 7.006369 7.036247 7.112069 [21] 7.156673 7.231920 7.311828 7.416268 7.440476 7.448494 7.491857 7.526882 7.526882 7.534247 [31] 7.547170 7.559395 7.605634 7.671233 7.749077 7.925408 7.964602 8.064520 8.247423 8.252427 [41] 8.436214

气孔指数的频率直方图

4个回答

非参数范式无法做到这一点,只要想一想:抽样分布是完全合法的,没有什么可以阻止单一种群分布具有两个独立的高密度区域。

但是如果你转向参数模型,你可能会假设你的子群体是高斯分布的,而高斯分布只有一个钟形高密度区域。如果这样做,您可以运行 EM 聚类来估计两个高斯聚类的混合模型的似然性,并将其与具有似然比检验的单一人口场景进行比较。

看看你的数据,这个测试肯定会显示出很高的意义。但是也有问题:

  • 当真实分布不完全是高斯分布时,EM 聚类倾向于夸大多个子群体假设的可能性
  • 更重要的是,对查看数据后提出的假设进行检验会产生自动确认偏差。

简而言之,我建议您放手,将观察到的分布评论为“可能来自不同的亚群”,或者这条线附近的东西。任何关于它的测试都是有偏见和不可靠的。

让我们从术语开始。统计中的人口是“研究中的实体集合”。在设计研究时,我们定义了感兴趣的人群,然后从该人群中抽取样本所以样本不能“由”多个群体“组成”。更合适的措辞是谈论“群体”、“集群”或“亚群”。

要在数据中查找集群,您可以使用算法,它将尝试将您的数据分成预定义数量的组,给定这样的标准。通常我们的目标是每个集群内的样本彼此最相似,而集群最不相似。请注意这里的逻辑问题:如果您首先以组彼此不同的方式对内容进行分组,然后测试它们是否不同,那么这就是循环的。如果您的测试失败,可能是聚类算法不够好,或者测试不够灵敏?它打开了许多“折磨数据直到它承认”的方法,通常是一个坏主意。

一种合理的方法是使用基于模型的聚类(即模型,如Stephan Kolassa的另一个答案中所述)具有一个或两个集群,然后进行似然比检验以比较两个模型。如果在给定双集群模型的情况下数据更“可能”,那么您可以说双集群解决方案“更适合”数据,尽管它不能证明存在实际的亚群。这种方法需要您能够定义描述数据的统计模型,因此它比使用“黑盒”聚类算法更复杂。

在统计方面,您想知道您的数据是否来自两个(或更多)人口的混合,而不是来自单一人口。看着或者更具体地说标签会很有帮助。高斯混合模型的组件数?包括一种非常好的方法,用于根据比较可能性在一个或两个组件之间做出决定。

其他答案已经讨论了聚类,这在这里是合适的。让我简要讨论一下 Wilcoxon-Mann-Whitney 检验。基本上,MW 测试评估一组中的值是否往往高于另一组(请参阅我的答案herehere)。也就是说,如果您从一组中选择一个数字,然后从另一组中选择一个数字,第一个通常会更大吗?如果您将数据拆分为高于某个切点和低于某个切点,答案将始终是肯定的按设计。MW是否重要的​​问题是功率问题。如果您在每组中至少有 4 个数据,那么对数据进行 MW 运行总是很重要的。简而言之,您心目中的程序会在给您显着结果的意义上“起作用”,但它不会告诉您您想知道什么。有关使用参数引导交叉拟合方法测试的高斯混合建模示例,请在此处查看我的答案:如何测试我的分布是否是多峰的?