我是一名统计学博士生。我正在使用一组计数数据。它是参与 n 向实时聊天对话的用户的数量。用户数量从 1 到 6 不等,集合中大约有 300 条数据。
我最初的动机是了解数据是否符合泊松分布,我的想法是如果找到合适的分布,我可以使用此结果进行进一步推断。
长话短说,我尝试拟合数据,但拟合失败的显着性水平为 0.05。因此我可以拒绝我的假设(泊松分布可用于近似数据集)。
当我查看密度图时,我认为拟合效果如此差的原因是“2 个用户的记录值太多。泊松分布在这个 bin 中的值越少越好。但是当我编译我自己的数据我没有理由相信存在异常值(即与 2 个用户的对话将被分配到更高或更低的 bin)
users <- c(1, 2, 2, 1, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 2, 2, 1, 1, 4, 3, 3, 3, 1,
2, 1, 1, 2, 4, 3, 2, 2, 1, 2, 3, 2, 2, 1, 1, 1, 2, 2, 1, 1, 1, 2, 2, 1, 3,
2, 1, 2, 3, 2, 1, 2, 1, 2, 1, 1, 3, 1, 1, 1, 2, 2, 2, 3, 1, 2, 1, 2, 4, 4,
3, 2, 2, 3, 4, 3, 3, 3, 1, 2, 4, 2, 3, 3, 2, 4, 3, 1, 2, 4, 1, 2, 2, 2, 1,
1, 1, 2, 3, 2, 4, 5, 2, 2, 4, 2, 2, 3, 3, 3, 2, 2, 3, 1, 3, 1, 1, 1, 2, 3,
6, 3, 3, 4, 2, 2, 2, 3, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 2,
3, 3, 3, 1, 1, 2, 1, 2, 2, 2, 2, 2, 2, 4, 3, 3, 2, 1, 2, 4, 1, 2, 1, 2, 2,
2, 3, 2, 2, 2, 2, 2, 3, 2, 2, 1, 1, 3, 1, 2, 1, 2, 3, 4, 2, 4, 3, 2, 2, 1,
4, 2, 2, 1, 1, 2, 2, 2, 1, 1, 1, 2, 2, 3, 3, 1, 1, 2, 1, 2, 1, 3, 3, 3, 3,
4, 6, 6, 5, 5, 2, 2, 3, 3, 3, 2, 3, 3, 4, 2, 3, 1, 3, 3, 1, 3, 2, 1, 3, 3,
2, 1, 3, 1, 3, 2, 1, 1, 1, 1, 3, 1, 3, 4, 1, 4, 1, 3, 2, 3, 6, 2, 2, 3, 2,
1, 2, 2, 2, 2, 2, 1, 2, 3, 2, 2, 4, 2, 2, 2, 3, 2, 2, 5, 3, 2, 2, 3, 2, 2,
2, 5, 2, 1, 4, 1, 2, 2, 6, 1, 3, 2)
tu.fit <- goodfit(users,type="poisson", method = "MinChisq")
summary(tu.fit)
Goodness-of-fit test for poisson distribution
X^2 df P(> X^2)
Pearson 69.37891 5 1.379945e-13
在本科阶段的统计学中,我被告知计数数据可以通过泊松分布建模,但他们从未教过当计数数据不适合时该怎么做。
我不拘泥于我的计数数据应该适合泊松(或任何其他分布)的前提。但是,我想探索是否应该转换我的数据集并适应另一个离散分布或尝试其他方法 (KDE) 的效果。或者我应该简单地得出结论,我的数据不适合 Poisson(或任何其他分布)并保留它吗?
