我正在尝试学习如何使用程序 R 将概率分布拟合到数据向量,但是有很多潜在的概率分布可供使用!所以我的问题是,如何为我的数据找到最佳分布,以及如何证明我选择了正确的分布?我可以获取一整套不同分布的 AIC 值吗?
这些数据是蜜蜂访问花朵的观察计数数据。每个物种都有一定数量的访问,因此频率不同。目标是找到描述蜜蜂访问的最佳分布,表明我选择了正确的分布,然后使用该分布随机抽样进行一组模拟。
这是数据的样子,它是计数观察的向量。它是零膨胀的,具有长尾分布(可能是零膨胀的负二项式?)。
i.vec=c(0,63,1,4,1,44,2,2,1,0,1,0,0,0,0,1,0,0,3,0,0,2,0,0,0,0,0,2,0,0,0,0,
0,0,0,0,0,0,0,0,6,1,11,1,1,0,0,0,2)
这是我计算的一些基本参数。我使用 sigma 的标准差,phi 是数据中零的比例。
m=mean(i.vec)
#[1] 3.040816
sig=sd(i.vec)
#[1] 10.86078
tab<-table(i.vec)
zero.prop<-as.numeric(tab[1])/sum(as.numeric(tab))
#[1] 0.6122449
如您所见,标准差远大于平均值,而且我的零比例非常高。