比较不等样本量的分布

机器算法验证 分布 t检验 群体差异 直方图
2022-03-22 09:21:13

考虑下面直方图中显示的分布:

在此处输入图像描述

我已经计算了这两组之间均值差异的 Welch t 检验,以及 Kruskall-Wallis 检验以查看这两组是否来自同一分布。两个测试统计在p < 0.001 时具有统计学意义。查看下面的直方图,这些结论(拒绝 null)似乎是合理的。

但是,A 组的观测数约为 1500,而 B 中的观测数约为 400。我特别选择了 Welch 的 t 检验,因为它没有假设每组中的样本数。虽然我想了解该测试的结果,但我不禁查看下面的分布并想,“好吧,A组有更多机会获得更高Days between T and E的 ”,从某种意义上说,也许如果我有更多的观察对于 B,两个分布将开始看起来相同(即两者仍将是正偏态,但 B 组将在偏斜一侧“增大”以大致匹配 A 组)。

如果 B 有更多样本,考虑到有重要的统计证据反对我刚才所说的话,那么 B 组是否真的可能来自 A 的相同分布?我无法获得 B 组的更多观察结果。

我的另一部分认为测试统计数据是正确的:Days between T and EB 组的高观测值的相对比例远低于 A 组。也就是说,A 组平均而言确实倾向于具有更高的中位数/均值Days between T and E,和不同的方差。

编辑:

因此,我从 B 组中进行了欠采样,以创建一个新数据集,该数据集具有来自两个组的相同数量的观察结果,并为这些“新”数据创建了相同类型的直方图:

废话

新的 Welch 的 t-stat 比第一个更重要。因此,这种使样本量相等的欠采样似乎证实了这两个群体的目标和参与之间的天数实际上是不同的。

1个回答

您的粗体问题的答案是否定的。(而且您不需要对任何内容进行上采样或下采样。)

如果 A 和 B 都是来自各自总体的随机样本,则样本 cdf 将收敛到总体 cdf;这不会随着样本大小而向上爬升。

如果 A 和 B 都是来自各自总体的随机样本,则从 B 中抽取更大的样本不会使分布沿线移动(除非随机变化允许在任一方向上都有一点移动);当您采样更多时,您只会对 B 的分布形状进行更精确的估计。整个事情会更高,而不仅仅是上部。

您可以通过将直方图缩放到面积 1 来调整 A 的更大计数。这将使形状的图片随着样本大小的变化而更加恒定(在 vanilla R 中,hist这样freq=FALSE做)。

如果 B 的分布没有有限均值,那么如果您比较样本均值(而不是整体分布),那么较大的样本可能看起来比较小的样本更极端,但是您的 t-测试也无效。不过,这将需要一个非常重的上尾。


缩放高度以使它们(大致)接近左侧的可比性(低于大约 80),我们有:

两个数据集的直方图,其中较大的一个按比例缩小

-- 现在我们可以看到,尽管它们在左侧没有太大差异(以百分比计),但 A 的右尾(超过 80 倍)仍然要高得多。

可以“通过眼睛”进行重新缩放,而无需亲自进行。鉴于样本量很大,这意味着通过查看您的第一个图可以立即看出 A 往往大于 B。