似乎当满足方差同质性假设时,韦尔奇调整 t 检验和标准 t 检验的结果大致相同。为什么不总是使用 Welch 调整后的 t?
在进行 t 检验时,为什么更愿意假设(或测试)方差相等,而不是总是使用 df 的 Welch 近似值?
我想根据Kubinger、Rasch 和 Moder (2009)的论文(德语)反对其他两个答案。
他们认为,基于来自满足或不满足 t 检验施加的假设(方差的正态性和同质性)分布的“广泛”模拟,当满足假设时(即基本相同),韦尔奇检验表现同样好犯 alpha 和 beta 错误的概率),但如果不满足假设,则优于 t 检验,尤其是在功效方面。因此,如果样本量超过 30,他们建议始终使用 welch-test。
作为一个元评论:对于对统计感兴趣的人(像我和可能在这里的大多数其他人),基于数据的论点(就像我的一样)至少应该等同于仅基于理论基础的论点(就像这里的其他人一样)。
更新:
再次思考这个话题后,我发现了两个进一步的建议,其中较新的一个有助于我的观点。查看导致这些建议的论据的原始论文(至少对我而言,这两篇论文都是免费提供的)。
第一个建议来自 Graeme D. Ruxton 在 2006 年:“如果要根据不相关数据的样本比较 2 个总体的集中趋势,则应始终优先使用不等方差 t 检验而不是学生 t 检验或 Mann-Whitney U 检验。 ”载
于:
Ruxton, GD, 2006。不等方差 t 检验是学生 t 检验和 Mann-Whitney U 检验的一种未充分利用的替代方法。
行为。生态。17, 688–690。
第二个(较早的)建议来自 Coombs 等人。(1996 年,第 148 页):“总之,在控制 I 类错误率方面,独立样本 t 检验通常是可以接受的,前提是存在足够大的等大小样本,即使违反了等总体方差假设。对于不等大小的样本,然而,一个不假设相等总体方差的替代方案是可取的。当分布是短尾对称或正态分布时,使用 James 二阶检验。有希望的替代方案包括 Wilcox H 和 Yuen 修剪均值检验,它们提供对 I 类错误率的控制比 Welch 检验或 James 检验更广泛,并且在数据为长尾时具有更大的功效。” (重点补充)
在:
Coombs WT, Algina J, Oltman D. 1996。当总体方差不一定相等时,选择单变量和多变量综合假设检验来控制 I 类错误率。Rev Educ Res 66:137-79。
当然,可以放弃这两种检验,开始使用贝叶斯 t 检验(Savage-Dickey 比率检验),它可以解释相等和不相等的方差,最重要的是,它允许量化有利于零假设(这意味着不再有旧的“拒绝拒绝”的说法)
这个测试实现起来非常简单(而且速度很快),并且有一篇论文清楚地向不熟悉贝叶斯统计的读者解释了如何使用它,以及一个 R 脚本。您基本上可以插入数据,将命令发送到 R 控制台:
还有一个关于所有这些的教程,带有示例数据:
http://www.ruudwetzels.com/index.php?src=SDtest
我知道这不是对所问内容的直接回应,但我认为读者可能会喜欢这个不错的选择
因为精确结果比近似值更可取,并且避免了奇怪的边缘情况,其中近似值可能导致与精确方法不同的结果。
Welch 方法并不是进行任何旧 t 检验的更快方法,它是对原本非常困难的问题的一种易于处理的近似:如何在不等方差下构建 t 检验。等方差的情况很容易理解、简单且准确,因此应尽可能使用。
我能想到的两个原因:
如果样本量相等,Regular Student's T 对异方差性非常稳健。
如果您先验地坚信数据是同方差的,那么您不会损失任何东西,并且可能会通过使用 Studen's T 而不是 Welch 的 T 而获得少量的幂。
我不会给出的一个原因是学生的 T 是准确的,而韦尔奇的 T 不是。恕我直言,Student's T 的准确性是学术性的,因为它仅适用于正态分布的数据,而没有真正的数据是完全正态分布的。我想不出人们实际测量和统计分析的单一数量,其中分布可以合理地支持所有实数。例如,宇宙中只有这么多原子,有些量不可能是负数。因此,当您对真实数据使用任何类型的 T 检验时,无论如何您都是在进行近似。