考虑下面直方图中显示的分布:
我已经计算了这两组之间均值差异的 Welch t 检验,以及 Kruskall-Wallis 检验以查看这两组是否来自同一分布。两个测试统计在p < 0.001 时具有统计学意义。查看下面的直方图,这些结论(拒绝 null)似乎是合理的。
但是,A 组的观测数约为 1500,而 B 中的观测数约为 400。我特别选择了 Welch 的 t 检验,因为它没有假设每组中的样本数。虽然我想了解该测试的结果,但我不禁查看下面的分布并想,“好吧,A组有更多机会获得更高Days between T and E的 ”,从某种意义上说,也许如果我有更多的观察对于 B,两个分布将开始看起来相同(即两者仍将是正偏态,但 B 组将在偏斜一侧“增大”以大致匹配 A 组)。
如果 B 有更多样本,考虑到有重要的统计证据反对我刚才所说的话,那么 B 组是否真的可能来自 A 的相同分布?我无法获得 B 组的更多观察结果。
我的另一部分认为测试统计数据是正确的:Days between T and EB 组的高观测值的相对比例远低于 A 组。也就是说,A 组平均而言确实倾向于具有更高的中位数/均值Days between T and E,和不同的方差。
编辑:
因此,我从 B 组中进行了欠采样,以创建一个新数据集,该数据集具有来自两个组的相同数量的观察结果,并为这些“新”数据创建了相同类型的直方图:
新的 Welch 的 t-stat 比第一个更重要。因此,这种使样本量相等的欠采样似乎证实了这两个群体的目标和参与之间的天数实际上是不同的。


