数据严重偏向零时的两个样本位置测试?

机器算法验证 t检验 偏度 wilcoxon-mann-whitney 检验
2022-03-26 06:21:44

我想测试两个独立样本之间的平均值是否不同。两个样本都很大,每个都有大约 200 万个观测值,但几乎所有观测值都为零。特别是在每个样本中,只有大约 10,000 个观察值是非零的。

该数据捕获了两组客户在给定时间段内花费的金额,零值表示客户没有进行任何购买。

运行学生 t 检验或 Mann-Whitney U 检验未显示均值之间的任何统计显着差异。我正在考虑放弃所有非零观测值,并重新运行测试,但我不确定如何解释结果。

任何见解将不胜感激。

2个回答

您可以尝试Heckman 两步模型如果你没有排除限制——一个改变客户是否购买的变量,但不影响他直接花费多少——识别将是脆弱的,你可能会得到古怪的结果。但是在一些营销示例中,两步法可能是有意义的,尽管如果不知道你的两组是什么就很难说清楚。

查看Stata 手册中的示例、公式和参考部分您不必使用 Stata 进行估算,但这些手册非常适合解释这个想法。

如果您的支出数据有一个长的右尾,您可以使用代替在日志中估计此模型。玩弄是为了确保你的结果不是很敏感。ln(min{y})εln(0)ε

另一种方法是使用 Stata 中的两部分模型 ( tpm) 命令,它避免了排除限制和对数变换的双重困难。它是计数数据障碍模型的连续结果对应物(如购买数量而不是收入)。我不知道非Stata实施。

时正确处理过多的关系,则 Wilcoxon-Mann-Whitney 2 样本检验可能仍然适用于此问题。或者使用 Wilcoxon 检验是比例优势序数逻辑模型的一个特例,并且该模型的似然比检验自动解释过度关系这一事实。对于 2,000,000 的总样本量,如果唯一非零值的数量超过 100 个左右,则模型将花费大量计算机时间来运行,因此您可以考虑将非零值四舍五入以减少截距模型。R包的功能将有效地处理数千个独特的Pχ2rmsormY如果样本量不是很大的话。对于您的情况,它可能适用于一百个左右独特的值。Y