如果不是泊松,那么这是什么分布?

机器算法验证 r 分布 泊松分布 意思是 样本
2022-02-26 04:24:32

我有一个数据集,其中包含个人在 7 天内执行的操作数量。具体操作不应该与这个问题相关。以下是数据集的一些描述性统计数据:

Range0772Mean18.2Variance2791Number of observations696

这是数据的直方图: 动作直方图

从数据来源来看,我认为它符合泊松分布。但是,均值≠方差,并且直方图的权重偏向左侧。此外,我goodfit在 R 中运行测试并得到:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

最大似然法也产生 p 值 = 0。假设原假设是:数据匹配泊松分布(文档没有具体说明),那么goodfit测试表明我们应该拒绝原假设,因此数据不匹配泊松分布。

那分析正确吗?如果是这样,您认为哪种分布适合这些数据?

我的最终目标是比较 2 个样本之间的平均动作次数,看看平均值是否不同;检查分布是否有必要?我的理解是典型的测试(z-,t-,测试)不适用于泊松分布。如果数据确实是泊松分布的,我应该使用什么测试?χ2

4个回答

如果方差大于均值,则称为过度离散。一个自然的模型是负二项分布。这也可以看作是参数 lambda 遵循 Gamma 分布的泊松分布。第一步也是简单的一步可能是拟合负二项分布。

如果您的原始计数数据看起来不像泊松分布,那么您就遗漏了一些东西。也许行动的数量取决于温度,所以在炎热的日子里人们做的事情更少。然后,您研究期间的温度变化会影响分布并使其成为非泊松分布。

然而,每天的动作次数仍然可能是泊松,其平均值取决于温度。如果您每天都有温度,那么您可以进行 GLM,将操作数回归为泊松变量,具体取决于温度。如果这很合适,工作就完成了。

如果您没有可能的解释变量,那么您只能说“正在发生其他事情-动作的数量不是来自独立的泊松样本”-即拒绝您的原假设。

有无分布测试可以通过使用排名等来比较成对的观察结果。通常,他们会进行大量排列并计算测试统计量...

还有一件事:您也应该调查计数数据中的异常值。你有一个计数在 400 左右,然后在 800 左右之前什么都没有。这不太可能适合任何常见模型。

您似乎在计算零事件的数量 - 如果是这样,那么您可能会考虑使用 ZIP 模型(或 Hurdle) - 请参阅Zeileis 等人的Regression Models for Count Data in R以获得概述。

粗略地总结一下,这些方法将零计数与其他可能对您的情况有用的计数分开建模。

请参阅pscl包和zeroinfl()hurdle()功能。