总是使用 Welch-t 检验(不等方差 t 检验)而不是 Student-t 或 Mann-Whitney 检验?

机器算法验证 假设检验 t检验 wilcoxon-mann-whitney 检验
2022-04-15 22:01:27

我想做一个 AB 测试来检查一个版本是否能显着增加收入。一般而言,我想根据两组(未配对)样本来测试两组的集中趋势(平均值)是否彼此不同。

我的理解是,我可以使用以下方法:

  • Student-t 检验,如果两组的方差相同且均服从正态分布
  • Welch-t 检验(不等方差 t 检验),如果两组的方差可能不一样但两者仍呈正态分布
  • Mann-Whitney U 检验(Wilcoxon 秩和检验),如果我不能对两组的分布做出任何假设

但现在我读到(https://academic.oup.com/beheco/article/17/4/688/215960/The-unequal-variance-t-test-is-an-underused)我总是可以使用 Welch -t 测试这篇文章认为,做出等方差的假设是危险的,此外,

只要基础分布是正态的,就控制 I 型和 II 型错误率而言,不等方差 t 检验的性能与学生 t 检验一样好或更好。

如果这些组不是正态分布的,那么我可以事先对数据进行排名:

因此,Zimmerman 和 Zumbo (1993) 建议,如果在应用测试之前首先对数据进行排序,则不等方差 t 检验可以有效地替代 Mann-Whitney U 检验。

所以最后的结论是:

如果要根据不相关数据的样本比较 2 个总体的集中趋势,则应始终优先使用不等方差 t 检验,而不是学生 t 检验或 Mann-Whitney U 检验。要使用此测试,首先以图形方式检查 2 个样本的分布。如果有证据表明其中一个或两个分布存在非正态性,则对数据进行排名。获取已排序或未排序的数据并执行不等方差 t 检验。

所以我的问题是:

您是否发现始终使用 Welch-t 检验而不是 Student-t 检验或 Mann-Whitney 检验有任何缺点?

2个回答

已经有许多论文研究了这个问题。他们中的大多数人得出的结论是,韦尔奇版本的 t 检验可以在大多数情况下安全地使用。

测试似乎具有不良性能的唯一情况是样本量非常小。

以下是两篇论文的一些引述,它们检查了小样本量的 t 检验性能:

具有不等方差选项的 t 检验(即 Welch 检验)通常也不是首选。只有在方差不等且样本量不等的情况下,即从小方差总体中抽取小样本,与常规测试相比,这种方法才具有功效优势。在其他情况下,与常规 t 检验相比,失去了大量的统计功效。Welch 测试的功率损失可以通过由 Welch-Satterthwaite 方程确定的较低自由度来解释。1

结果表明,根据 Bradley (1978) 相当严格的标准,当样本量不相等时,即使总体满足 t 检验的假设,Welch t 检验确实被夸大了。通货膨胀率似乎更多地取决于较小群体的规模而不是总样本量,但样本量比率似乎确实起着很小的作用2

但是,如果您通读这些论文,您会发现实际上只有在样本量非常小的特定情况下(特别是当两组中较小的一组非常小时),这才是一个很大的问题。“小”意味着只有在两篇论文都假设一组包含大约 5 个或更少的主题时,效果才会真正麻烦,但请仔细查看参考文献以进行更彻底的讨论。在这种情况下,您可能(显然)建议收集更多数据。但这当然可能是昂贵的实验的一个问题。

否则韦尔奇的可能没问题。

1 :使用样本量极小的学生 t 检验,JCF de Winter 2013

2 :满足假设时样本量非常小的分离方差 Welch t 检验的 I 类错误膨胀,Albert K. Adusah 和 Gordon P. Brooks 2011

您是否发现始终使用 Welch-t 检验而不是 Student-t 检验或 Mann-Whitney 检验有任何缺点?

Welch t 检验本质上是针对未配对的样本进行的。如果您因为两次测量了相同的主题而对样本进行了配对,则应该使用该信息。配对样本 t 检验更强大。

这是最常见的例外,配对数据可以出现在大多数(如果不是所有)研究领域中。还有一些特定的 t 检验变体可以纠正特定上下文中特定类型的伪复制。例如,对于来自重复交叉验证的数据,有经过校正的重采样 t 检验。这些变体通常也不与 Welch 的方法集成。