计数数据的平均差

机器算法验证 假设检验 意思是 计数数据
2022-04-14 11:54:54

我有两个计数数据样本每个样本量 > 1000。分布看起来类似于泊松分布,但方差远大于均值。s1s2

如何测试的平均值是否大于的平均值?s1s2

3个回答

已经提出了 t 检验,已经提出了类泊松广义线性回归。样本大小 > 1000,如何引导两个样本之间的差异?这很容易,速度很快,它不仅提供点估计,还提供分布,它摆脱了所有正态性或泊松或负二项式等假设。即使它们的数量很少,引导程序也可以完成这项工作。

给出您的大样本量,您可能可以对均值使用 t 检验。如果您的样本量相等,那么无论您想使用方差的合并估计还是未合并(韦尔奇检验),您的状态都很好。如果您确定 s1 的总体的平均值至少与 s2 的总体的平均值一样大,请进行单边检验。

注意:如果方差远大于均值,则您的计数不是泊松。但这里重要的是样本平均值的分布,这应该几乎是正常的,除非数据是超级偏斜的。在这种情况下,您可以进行像 Kruskal-Wallis 这样的非参数检验。

我建议你拟合一个泊松或对数线性回归模型,只为两组创建一个虚拟变量,然后测试斜率参数,比如,Ha:β1>0. 可以使用最大似然框架下的任何测试方法(LRT、Wald 或分数)。至于过度分散问题,您可以考虑其他计数模型,例如负二项式或广义泊松模型。这基本上应该为您提供计数数据的两个样本测试。