我想做什么以及我的数据看起来如何?
我正在尝试对通常不是正态分布的数据组的中位数进行一些比较。在某些情况下,我会比较一些具有 100-200 个数据点的组,但在其他情况下,我想比较只有 4 和 10 个数据点的组。实际上,所有比较组的样本量都不相同。
我该怎么做?
对此,我正在做以下事情:
- 使用 Kolmogorov-Smirnov 检验比较两个样本的形状(即检验是否
data1呈现出遵循data2; In Mathematica的分布KolmogorovSmirnovTest[data1,data2]); - 如果形状在统计上相似,我使用 Mann-Whitney U 检验来比较中位数;
- 在大多数情况下,组的形状在统计上并不相似。因此,我想使用 Welch 校正进行 t 检验(如本答案和本维基百科页面中所建议的那样)。但是,这还没有在 Mathematica 中实现,我目前没有时间自己做。
我知道,通过转向 Welch t 检验,我不再比较中位数,而是比较平均值,但如果没有其他选项可用,我会这样做。
问题:
- 是否有其他测试可以比较方差、形状和大小不等的样本之间的中位数?
- 我可以采取的最小样本量是多少?我知道 t 检验不存在最小样本量,因为它取决于分析的能力。但也许比较 4 点和 10 点的分布形状不是很好......在这种情况下,中心极限定理不应该有很强的影响
- 有人知道数学中的这种实现吗?或者也许如何在那里进行韦尔奇 t 检验?
PS - 我已经搜索了很多,包括在这个论坛中,但在这方面没有出现。如果之前已经回答过这个问题,我真的很抱歉。
附加信息:
在评论中,有人询问了一些额外的信息。我希望这一切都有意义,如果我不能为我们的真实问题提供更高的背景,我很抱歉。
- 每个样本的信息都是从许多生物的基因组组成中收集的。所以我有两个独立样本列表,
(0.01,0.7,0.15,...)其分布我不希望遵循任何特定趋势(即正态、对数正态等)。 - 对于每个有机体,我们都有完整的频率,不仅是一个样本,还有要比较的组:我们只有一个小样本。理想情况下,我们将能够收集数千种生物的信息,但这不可行或目前不可用。所以,在我们最大的群体中,我们有几百个有机体,在最小的群体中,我们有几十个。
- 我们想要测试的是,一个生物群体在一个群体中的频率是否高于另一群体。这是因为我们想要进行位置比较,其中比较的度量代表该人群记住我们特定的生物学问题)。所以我们想要对两个群体进行比较的一般衡量标准,允许简单地说“这两个群体在[这个]总体衡量标准上差异不大”或“这个群体往往表现出更高的中位数” /平均频率比另一个“。
- 我知道均值/中位数本身对两个人口的分布信息不够丰富。例如,如果一个重尾,它们可能都表现出相似的中位数,但其中一个可能表现出更高的平均值。但是,出于我们的目的,我们认为中位数(或必要时的平均值)提供了足够的洞察力。