机器算法验证 - 数据严重偏向零时的两个样本位置测试？ - 吾爱随笔录

数据严重偏向零时的两个样本位置测试？

机器算法验证 t检验偏度 wilcoxon-mann-whitney 检验

2022-03-26 06:21:44

我想测试两个独立样本之间的平均值是否不同。两个样本都很大，每个都有大约 200 万个观测值，但几乎所有观测值都为零。特别是在每个样本中，只有大约 10,000 个观察值是非零的。

该数据捕获了两组客户在给定时间段内花费的金额，零值表示客户没有进行任何购买。

运行学生 t 检验或 Mann-Whitney U 检验未显示均值之间的任何统计显着差异。我正在考虑放弃所有非零观测值，并重新运行测试，但我不确定如何解释结果。

任何见解将不胜感激。

2个回答

您可以尝试Heckman 两步模型。如果你没有排除限制——一个改变客户是否购买的变量，但不影响他直接花费多少——识别将是脆弱的，你可能会得到古怪的结果。但是在一些营销示例中，两步法可能是有意义的，尽管如果不知道你的两组是什么就很难说清楚。

查看Stata 手册中的示例、公式和参考部分。您不必使用 Stata 进行估算，但这些手册非常适合解释这个想法。

如果您的支出数据有一个长的右尾，您可以使用代替在日志中估计此模型。玩弄是为了确保你的结果不是很敏感。 $\ln(min\{y\}) -\varepsilon$ $\ln(0)$ $\varepsilon$

另一种方法是使用 Stata 中的两部分模型 ( tpm) 命令，它避免了排除限制和对数变换的双重困难。它是计数数据障碍模型的连续结果对应物（如购买数量而不是收入）。我不知道非Stata实施。

值时正确处理过多的关系，则 Wilcoxon-Mann-Whitney 2 样本检验可能仍然适用于此问题。或者使用 Wilcoxon 检验是比例优势序数逻辑模型的一个特例，并且该模型的似然比检验自动解释过度关系这一事实。对于 2,000,000 的总样本量，如果唯一非零值的数量超过 100 个左右，则模型将花费大量计算机时间来运行，因此您可以考虑将非零值四舍五入以减少截距模型。R包的功能将有效地处理数千个独特的 $P$ $\chi^2$ rmsorm $Y$ 如果样本量不是很大的话。对于您的情况，它可能适用于一百个左右独特的值。 $Y$

其它你可能感兴趣的问题

上一篇在 Cox PH 模型的模拟中获得所需百分比的删失观察下一篇自举是否适合使用小样本量估计多元正态协方差矩阵？