如果我的单边 t 检验结果显着但样本量很小(例如低于 20 左右),我还能相信这个结果吗?如果不是,我应该如何处理和/或解释这个结果?
如果样本量很小,我可以相信 t 检验的显着结果吗?
你应该很少相信任何一个重要的结果。您没有说明为什么要使用单尾而不是双尾测试,因此希望您有充分的理由这样做,而不是努力争取能够声称具有统计学意义的结果!
撇开这一点不谈,请考虑 p. 中的以下内容。261 Sauro, J. 和 Lewis, JR (2016)。量化用户体验:用户研究实用统计,第 2 版。马萨诸塞州剑桥市:Morgan-Kaufmann。
Ronald Fisher 如何推荐使用 p 值
当卡尔·皮尔逊是统计学的大老爷,罗纳德·费舍尔是一个相对较新的人时,皮尔逊显然受到费舍尔的思想和数学能力的威胁,利用他的影响力阻止费舍尔在当时的主要统计期刊 Biometrika 和期刊上发表文章皇家统计学会。因此,费舍尔在农业和气象期刊等各种其他场所发表了他的想法,其中包括为《心理研究学会学报》发表的几篇论文。正是在后者期刊的一篇论文中,他提到了将我们现在所说的可接受的 I 型错误 (alpha) 设置为 0.05 的惯例,并且至关重要的是,他还提到了在遇到意外的重要结果时重现性的重要性:
在没有我们正在寻找的那种真正原因的情况下,如果很少产生观察,则认为观察是重要的。通常的做法是判断一个结果是否重要,如果它的数量如此之大,以至于在 20 次试验中偶然产生的频率不超过一次。对于实际的调查者来说,这是一个随意但方便的意义级别,但这并不意味着他允许自己在每 20 个实验中被欺骗一次。显着性检验只告诉他忽略什么,即所有没有获得显着结果的实验。只有当他知道如何设计一个实验以便它很少不能给出显着的结果时,他才应该声称一个现象是可以通过实验证明的。最后,他不知道如何重现的孤立的重要结果仍然悬而未决,有待进一步调查。(费舍尔,1929 年,第 191 页)
参考
费舍尔,RA (1929)。心理学研究中的统计方法。心理研究学会会刊,39, 189-192。
理论上,如果 t 检验的所有假设都是正确的,那么小样本量就没有问题。
在实践中,对于大样本量,我们可以避免一些不太正确的假设,但对于小样本量,它们可能会导致问题。你知道底层分布是否是正态分布的吗?所有样本都是独立同分布的吗?
如果您怀疑测试的有效性,那么您可以使用的替代方法是引导。自举涉及从您的样本中重新采样,以查看零假设的正确或错误频率。也许你的零假设是您的 p 值为 0.05,但自举显示样本均值在 10% 的情况下小于零。这表明这是一个侥幸,导致 p 值为 0.05,您应该不太相信零假设是错误的。
想象一下自己处于一种情况,您正在执行许多类似的测试,在一组情况下,其中一部分空值是正确的。
确实,让我们用一个超级简单的瓮式模型来建模它;在骨灰盒中,有编号的球,每个球对应于您可能选择进行的实验,其中一些具有空值真,有些具有空值假。调用瓮中真空的比例.
为了进一步简化这个想法,让我们假设这些假空值的功率是恒定的(在, 自从是 II 类错误率的常用符号)。
你从我们的骨灰盒中选择一些实验(其中,比如说)“随机”,执行它们并拒绝或不拒绝他们的假设。我们可以假设瓮中的实验总数(, 比方说) 足够大,以至于这是没有替换的采样并没有什么不同(即,如果需要,我们很乐意将其近似为二项式),并且两者和足够大,我们可以讨论平均发生的事情,就好像它们是我们所经历的一样。
你的拒绝中有多少是“正确的”?
预期的拒绝总数:
预期的正确拒绝总数:
拒绝实际上是正确决定的总体比例:
拒绝是错误的总体比例:
为了使正确拒绝的比例超过一小部分,您需要避免出现以下情况
由于在我们的设置中,很大一部分空值是真实的,如果实质上不大于(即如果你没有相当高的权力),我们的很多拒绝都是错误的!
因此,当您的样本量很小(因此功效很低)时,如果我们的空值中有合理的一部分是正确的,那么我们在拒绝时经常会出错。
如果我们几乎所有的空值都是严格错误的,情况也不会好多少——而我们的大多数拒绝都是正确的(微不足道,因为微小的影响仍然严格错误),如果功率不高,其中很大一部分拒绝将是“错误的方向”——我们会经常断定 null 是错误的,因为碰巧样本结果在错误的一侧(这可能是使用单面测试的一个论据——当单面测试使意义——如果难以获得大样本量,至少可以避免没有意义的拒绝)。
我们可以看到,小样本量肯定是个问题。
[这个不正确拒绝的比例称为错误发现率]
如果您对可能的影响大小有一个概念,那么您就可以更好地判断一个足够的样本量可能是多少。由于预期影响较大,样本量较小的拒绝不一定是主要问题。
Gosset 的一些原创作品(又名 Student),他为此开发了 t 检验,涉及 n=4 和 5 的酵母样本。该检验是专门为非常小的样本设计的。否则,正常近似就可以了。也就是说,戈塞特正在对他非常了解的数据进行非常谨慎、受控的实验。啤酒厂必须测试的东西数量是有限的,Gosset 在吉尼斯度过了他的工作生涯。他知道他的数据。
我有点怀疑你强调片面测试。无论假设如何,测试的逻辑都是相同的,但是我看到人们在双面不显着时进行显着的单面测试。
这就是(上)单面测试所暗示的。您正在测试平均值是否为 0。您进行数学运算并准备在 T > 2.5 时拒绝。您运行实验并观察到 T=-50,000。你说,“phhhhht”,生活还在继续。除非测试统计量在物理上不可能低于假设的参数值,并且如果测试统计量与您预期的方向相反,除非您永远不会做出任何决定,否则您应该使用双向测试。