我目前正在撰写一份准实验研究论文。由于所选区域内的人口较少,我只有 15 个样本量,并且只有 15 个符合我的标准。15 是计算 t 检验和 F 检验的最小样本量吗?如果是这样,我在哪里可以得到一篇文章或书籍来支持这个小样本量?
这篇论文已经在上周一进行了辩护,其中一个小组要求提供支持性参考,因为我的样本量太小。他说应该至少有 40 名受访者。
我目前正在撰写一份准实验研究论文。由于所选区域内的人口较少,我只有 15 个样本量,并且只有 15 个符合我的标准。15 是计算 t 检验和 F 检验的最小样本量吗?如果是这样,我在哪里可以得到一篇文章或书籍来支持这个小样本量?
这篇论文已经在上周一进行了辩护,其中一个小组要求提供支持性参考,因为我的样本量太小。他说应该至少有 40 名受访者。
t 检验没有有效的最小样本量,除非它足够大以计算检验统计量。有效性要求检验统计量的假设大致成立。这些假设是在一个样本情况下,数据是独立同态(或近似正态),在原假设下均值为 0,方差未知但从样本中估计。在两个样本的情况下,两个样本相互独立,每个样本由独立同分布的正态变量组成,两个样本在原假设下具有相同的均值和共同的未知方差。汇总的方差估计用于统计。
在一个样本情况下,原假设下的分布是具有n-1个自由度的中心t 。在样本大小n和m不一定相等的两个样本案例中,检验统计量的零分布为t,自由度为n+m-2 。当自由度低(对应于低样本量)时,尾部较重的分布可以解释由于样本量小而导致的变异性增加。因此,可以找到检验统计量的临界值,以使任何样本量(至少为 2 或更大)具有给定的显着性水平。
样本量低的问题在于检验的功效。审阅者可能认为每组 15 个样本量不足以检测到有意义的差异,例如两个平均值之间的增量或一个样本问题的绝对值大于增量的平均值。需要 40 将需要在特定 delta 处指定特定功率,这将在 n 等于 40 但不低于 40 时实现。
我应该补充一点,要进行 t 检验,样本必须足够大以估计方差。
尽管对他很尊重,但他不知道自己在说什么。t 检验是为处理小样本而设计的。实际上并没有最小值(也许您可以说单样本 t 检验 IDK 至少为 3),但您确实担心小样本的足够功效。当可能的样本量受到高度限制时, 您可能有兴趣阅读折衷功效分析背后的想法,例如您的情况。
至于证明您可以对小样本使用 t 检验的参考,我不知道有一个,我怀疑是否存在。为什么会有人试图证明这一点?这个想法很愚蠢。
如现有答案中所述,样本量小的主要问题是统计功效低。关于什么是可接受的统计功效,有各种经验法则。有人说 80% 的统计功效是合理的,但归根结底,越多越好。通常在获得更多参与者的成本和获得更多统计能力的好处之间也存在权衡。
您可以使用 R 中的一个简单函数来评估 at test 的统计功效power.t.test
。
以下代码提供了样本大小为 15、单样本 t 检验、标准以及 .2、.5、.8 三种不同效果大小(有时称为分别为小、中、大效果。
p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')
round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)
[,1]
p.2 0.11
p.5 0.44
p.8 0.82
因此,我们可以看到,如果总体效应大小为“小”或“中”,则统计功效将较低(即分别为 11% 和 44%)。但是,如果总体中的效应量很大,您将拥有某些人所说的“合理”力量(即 82%)。
Quick-r 网站提供了有关使用 R 进行功率分析的更多信息。
如果两个样本是来自具有相同方差的正态分布的独立简单随机样本并且每个样本大小至少为两个(以便可以估计总体方差),则双样本 t 检验有效。与测试的有效性问题无关。根据希望检测的效应大小,小样本量可能是不谨慎的,但小样本量不会使测试无效。另请注意,对于任何样本大小,如果父分布为正态,则均值的抽样分布为正态。当然,更大的样本量总是更好,因为它们提供了更精确的参数估计。中心极限定理告诉我们样本均值比单个值更符合正态分布,但正如 Casella 和 Berger 所指出的,它的用处有限,因为必须针对任何特定情况检查接近正态性的速率。依赖经验法则是不明智的。请参阅 Rand Wilcox 的书籍报道的结果。