幂律和负二项分布之间有什么关系吗?

机器算法验证 r 分布 可能性 造型
2022-04-15 09:40:58

在我正在进行的一项社会实验中,我试图计算每个用户在 10 天内联系的人数。实验的人口规模为 100。根据我计算的值,我将负二项式分布拟合到数据(QQ 图如下所示)。

传统观点认为,人类之间的大多数网络都遵循幂律分布。我猜我的人口规模太小,无法对任何事情做出完整的结论,但是负二项式分布和幂律分布之间是否存在某种关系?我问这个是因为几天前我读到正态分布和 Gamma 分布(其离散模拟是负二项式)具有特殊作用,因为可以从 Gamma 分布中导出许多其他分布。我想知道即使幂律分布也是如此。我是统计学的初学者,所以如果我偏离轨道,请指出正确的方向。

替代文字

1个回答

有很多幂律分布,所以你有很多可能的模型。您可能首先尝试拟合对数系列分布,这是负二项式的极限情况。

在您估计模型参数并至少完成拟合优度测试之前,不要先验地认为您具有 whuber 建议的混合分布。长尾分布,如幂律、对数序列、Zipf 等,通常在右手尾有看起来像异常值的东西;它们与大部分观察结果的分离只是(相对)较小样本量的产物。由于某些区域重叠,因此很难估计混合物。假设您有一些关于每个用户的协变量(预测变量)数据,您通常可以通过使用泊松回归之类的方法将建模提高一个级别来避免此类问题——这基本上可以为您完成混合。

在引用的 Wikipedia 文章末尾给出的 Johnson、Kemp 和 Kotz 参考资料包含您想知道的关于所有这些分布的所有信息,包括许多参数估计方法。