了解负二项分布中的参数

机器算法验证 r 分布 造型 负二项分布
2022-02-04 13:19:33

我试图将我的数据拟合到各种模型中,并发现库中的fitdistr函数是最适合我的。现在从wiki页面,定义如下:MASSRNegative Binomial

NegBin(r,p) 分布描述了 k+r Bernoulli(p) 试验中 k 次失败和 r 次成功的概率,最后一次试验成功。

用于执行模型R拟合给了我两个参数meandispersion parameter. 我不明白如何解释这些,因为我在 wiki 页面上看不到这些参数。我只能看到以下公式:

负二项分布公式

其中k是观察次数和r=0...n现在我如何将这些与给出的参数联系起来R帮助文件也没有提供太多信息。

另外,就我的实验说几句话:在我正在进行的一项社会实验中,我试图计算每个用户在 10 天内联系的人数。实验的人口规模为 100。

现在,如果模型符合负二项式,我可以盲目地说它遵循该分布,但我真的很想了解这背后的直观含义。说我的测试对象联系的人数服从负二项分布是什么意思?有人可以帮忙澄清一下吗?

2个回答

您应该进一步查看 NB 上的 Wikipedia 文章,其中显示“伽马-泊松混合物”。虽然您引用的定义(我称之为“硬币翻转”定义,因为我通常将其定义为“假设你想翻转硬币直到你得到k头”)在介绍性概率或数理统计上下文中更容易推导并且更有意义,伽马-泊松混合(根据我的经验)是一种更普遍有用的方式来考虑应用上下文中的分布。(特别是,此定义允许色散/尺寸参数的非整数值。)在此上下文中,您的色散参数描述了作为数据基础的假设 Gamma 分布的分布,并描述了个体之间在其内在接触水平上未观察到的变化。特别是,的 Gamma 分布的变异系数为可能有助于思考这一点;如θ1/θθ变大,潜在变异性消失,分布接近泊松。

正如我在之前给你的帖子中提到的,我正在努力让我的头脑围绕拟合分布来计算数据。这是我学到的东西:

当方差大于平均值时,过度离散很明显,因此负二项式分布可能是合适的。如果方差和均值相同,建议使用泊松分布,当方差小于均值时,建议使用二项分布。

使用您正在处理的计数数据,您正在使用 R 中负二项式函数的“生态”参数化。以下免费书籍的第 4.5.1.3 节(第 165 页)专门讨论了这一点(在上下文中R,不少于!),我希望,可以解决你的一些问题:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

如果您得出结论认为您的数据是零截断的(即,0 次观测的概率为 0),那么您可能需要查看 R VGAM 包中 NBD 的零截断风格。

以下是其应用示例:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

我希望这是有帮助的。