我想做一个 AB 测试来检查一个版本是否能显着增加收入。一般而言,我想根据两组(未配对)样本来测试两组的集中趋势(平均值)是否彼此不同。
我的理解是,我可以使用以下方法:
- Student-t 检验,如果两组的方差相同且均服从正态分布
- Welch-t 检验(不等方差 t 检验),如果两组的方差可能不一样但两者仍呈正态分布
- Mann-Whitney U 检验(Wilcoxon 秩和检验),如果我不能对两组的分布做出任何假设
但现在我读到(https://academic.oup.com/beheco/article/17/4/688/215960/The-unequal-variance-t-test-is-an-underused)我总是可以使用 Welch -t 测试。这篇文章认为,做出等方差的假设是危险的,此外,
只要基础分布是正态的,就控制 I 型和 II 型错误率而言,不等方差 t 检验的性能与学生 t 检验一样好或更好。
如果这些组不是正态分布的,那么我可以事先对数据进行排名:
因此,Zimmerman 和 Zumbo (1993) 建议,如果在应用测试之前首先对数据进行排序,则不等方差 t 检验可以有效地替代 Mann-Whitney U 检验。
所以最后的结论是:
如果要根据不相关数据的样本比较 2 个总体的集中趋势,则应始终优先使用不等方差 t 检验,而不是学生 t 检验或 Mann-Whitney U 检验。要使用此测试,首先以图形方式检查 2 个样本的分布。如果有证据表明其中一个或两个分布存在非正态性,则对数据进行排名。获取已排序或未排序的数据并执行不等方差 t 检验。
所以我的问题是:
您是否发现始终使用 Welch-t 检验而不是 Student-t 检验或 Mann-Whitney 检验有任何缺点?