非配对 t 检验的最小样本量

机器算法验证 t检验 样本量 小样本 wilcoxon-mann-whitney 检验
2022-02-12 02:56:19

是否有“规则”来确定 t 检验有效所需的最小样本量?

例如,需要在 2 个总体的平均值之间进行比较。一个群体有 7 个数据点,而另一个群体只有 2 个数据点。不幸的是,该实验非常昂贵且耗时,并且获得更多数据是不可行的。

可以使用t检验吗?为什么或者为什么不?请提供详细信息(人口差异和分布未知)。如果不能使用 t 检验,是否可以使用非参数检验(Mann Whitney)?为什么或者为什么不?

4个回答

我建议在这里使用非参数Mann-Whitney U检验而不是非配对t检验。

t检验没有绝对的最小样本量,但随着样本量变小,检验对两个样本均来自具有正态分布的总体的假设变得更加敏感。对于这么小的样本,尤其是只有两个样本,你需要非常确定总体分布是正常的——这必须基于外部知识,因为这样小的样本本身提供的信息很少它们分布的正态性与否。但是你说“人口差异和分布是未知的”(我的斜体)。

Mann-Whitney U检验不需要关于分布的参数形式的任何假设,只需要假设两组的分布在原假设下相同。

(免责声明:我今天不能很好地打字:我的右手骨折了!)

与在其他答案中使用非参数测试的建议相反,您应该考虑到对于极小的样本量,这些方法不是很有用。原因很容易理解:在规模极小的研究中,除非观察到较大的效应量,否则无法确定组间差异。然而,非参数方法不关心组间差异的大小。因此,即使两组之间的差异很大,在样本量很小的情况下,非参数检验也总是无法拒绝零假设。

考虑这个例子:两组,正态分布,相同的方差。第 1 组:平均 1.0,7 个样本。第 2 组:平均 5、2 个样本。平均值之间存在很大差异。

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

计算的 p 值为 0.05556,它不拒绝零假设(0.05)。现在,即使将这两种方法之间的距离增加 10 倍,您也会得到相同的 p 值:

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

现在我邀请您使用 t 检验重复相同的模拟,并观察大(平均 5 对 1)和巨大(平均 50 对 1)差异情况下的 p 值。

t 检验没有最小样本量;事实上,t 检验是为小样本设计的。在过去打印表格时,您会看到非常小的样本(由 df 测量)的 t 检验表。

当然,与其他测试一样,如果样本量很小,只有相当大的影响才会具有统计显着性。

我假设您的意思是您有来自一组的 7 个数据点和来自第二组的 2 个数据点,这两个数据点都是人口的子集(例如男性子集和女性子集)。

可以从此Wikipedia 页面获得 t 检验的数学运算。我们将假设一个独立的两样本 t 检验,样本量不等(7 对 2)和不等方差,所以大约在该页面的一半。您可以看到计算基于均值和标准差。一组中只有 7 名受试者,另一组中只有 2 名受试者,您不能假设您对平均值或标准差都有很好的估计。对于有 2 个受试者的组,平均值只是恰好位于两个数据点中间的值,因此无法很好地估计。对于有 7 个受试者的组,样本大小会强烈影响方差(以及因此是方差的平方根的标准差),因为当样本较小时,极值会产生更强的影响。

例如,如果您查看Wikipedia 页面上标准差的基本示例,您会看到标准差为 2,因此方差(标准差的平方)为 4。但如果我们只有前两个数据点(9 和 1),方差为 10/2 = 5,标准差为 2.2,如果我们只有最后两个值(4 和 16),方差为 20/2 = 10标准差为 3.2。我们仍然使用相同的值,只是更少了,我们可以看到对我们估计的影响。

这就是使用小样本量的推论统计的问题,您的结果将特别受到抽样的强烈影响。

更新:有什么理由不能简单地按主题报告结果并表明这是探索性工作?只有两个案例,数据与案例研究非常相似,这些都是(1)重要的写出来和(2)公认的实践。