样本量不等:何时退出

机器算法验证 假设检验 样本量 统计能力 群体差异
2022-01-19 01:24:40

我正在对一篇学术期刊文章进行同行评审,作者写了以下内容作为不报告任何推论统计的理由(我取消了这两个群体的性质):

总共 2,349 名受访者中有 25 名(1.1%)报告X。我们适当地避免提出将X组与Y组(其他 2,324 名参与者)进行统计比较的分析,因为这些结果可能很大程度上是由偶然性驱动的,结果如此罕见。

我的问题是,这项研究的作者是否有理由在比较群体方面认输?如果没有,我可以向他们推荐什么?

2个回答

统计检验不对样本量做出假设。当然,各种测试(例如,正态性)存在不同的假设,但样本量的相等性并不是其中之一。除非使用的测试在其他方面不合适(我现在想不出问题),否则I 类错误率不会受到组大小完全不相等的影响。此外,他们的措辞暗示(在我看来)他们相信它会。因此,他们对这些问题感到困惑。

另一方面,II 类错误率非常高度不平等的影响。ns。无论进行何种测试(例如,t-测试,曼-惠特尼U-测试,或z- 比例相等的测试都会以这种方式受到影响)。有关这方面的一个例子,请参阅我的回答:如何解释不同样本量的均值比较?因此,在这个问题上 ,他们很可能“有理由认输” 。(具体来说,如果你期望得到一个不显着的结果,无论效果是否真实,测试的意义何在?)

随着样本量的不同,统计功效将收敛到α. 这个事实实际上导致了一个不同的建议,我怀疑很少有人听说过并且可能很难通过审稿人(无意冒犯):妥协权力分析这个想法相对简单:在任何功率分析中,α,β,n1,n2, 和效果大小d, 存在于彼此的关系中。指定除一个以外的所有内容后,您可以解决最后一个问题。通常,人们会进行所谓的先验功率分析,您可以在其中求解N(通常你假设n1=n2)。另一方面,您可以修复n1,n2, 和d,并求解α(或等效地β),如果您指定您愿意接受的类型 I 与类型 II 错误率的比率。按照惯例,α=.05β=.20,所以你说 I 型错误比 I 型错误差四倍。当然,给定的研究人员可能不同意这一点,但是指定给定的比率后,您可以解决α您应该使用以可能保持一些足够的功率。在这种情况下,这种方法对于研究人员来说是一个合乎逻辑的有效选择,尽管我承认这种方法的奇异性可能使其在可能从未听说过这种事情的更大的研究社区中难以推销。

虽然@gung 的回答非常好,但我认为在查看截然不同的群体规模时应该考虑一个重要问题。通常,只要满足测试的所有要求,组大小的差异并不重要。

然而,在某些情况下,不同的组大小将对违反这些假设的测试的稳健性产生显着影响。例如,经典的双样本非配对 t 检验假设方差同质性,并且仅当两个组的大小相似(按数量级)时才对违规行为具有鲁棒性。否则较小组中较高的方差将导致 I 类错误。现在使用 t 检验,这不是什么大问题,因为通常使用 Welch t 检验,并且它不假设方差同质性。然而,类似的效果也可能出现在线性模型中。

总之,我想说这绝不是统计分析的障碍,但在决定如何进行时必须牢记这一点。