负二项分布和二项分布有什么区别?
我尝试在线阅读,发现数据点离散时使用负二项分布,但我认为即使是二项分布也可以用于离散数据点。
负二项分布和二项分布有什么区别?
我尝试在线阅读,发现数据点离散时使用负二项分布,但我认为即使是二项分布也可以用于离散数据点。
不同之处是我们感兴趣的。这两种分布都是由独立的伯努利试验构建的,成功概率为p。
对于二项分布,随机变量X是在n次试验中观察到的成功次数。因为试验次数是固定的,所以X的可能值为0, 1, ..., n。
对于负二项分布,随机变量 Y 是在观察到第r次成功之前的试验次数。在这种情况下,我们不断增加试验次数,直到达到r次成功。Y 的可能值为r , r+1 , r+2 , ... 没有上限。负二项式也可以根据第r次成功之前的失败次数来定义,而不是根据第r次成功之前的试验次数来定义。维基百科以这种方式定义负二项分布。
所以总结一下:
二项式:
负二项式:
感谢 Ben Bolker 提醒我提及对这两个发行版的支持。他在这里回答了一个相关的问题。
负二项分布尽管看起来与二项分布有明显的关系,但实际上与泊松分布相比更好。顺便说一句,这三个都是离散的。
在实际应用中,当您观察到高于 Poisson 预期的色散(方差)时,NB 是 Poisson 的替代方案。当您处理计数数据时,泊松是首先要考虑的选择,例如小镇每年的车祸死亡人数。泊松分布的均值和方差都由一个参数定义 - 发生率,通常表示为。只要您估计,您的均值和方差就会随之而来。事实上,均值必须等于方差。
如果您的数据表明方差大于均值(过度离散),这排除了泊松,那么负二项式将是下一个要查看的分布。它有多个参数,因此它的方差可能大于均值。
NB 与二项式的关系来自底层过程,正如@Jelsema 的回答中所描述的那样。这个过程是相关的,所以分布也是相关的,但正如我在这里解释的那样,与泊松分布的链接在实际应用中更接近。
更新:另一方面是参数化。二项分布有两个参数:p 和 n。它的真实域是 0 到 n。因为它不仅是离散的,而且是在一组有限的数字上定义的。
相反,泊松和 NB 都是在无限的非负整数集上定义的。Poisson 有一个参数,而 NB 有两个:p 和 r。请注意,这两个没有参数。因此,这是了解 NB 和 Poisson 如何连接的另一种方式。
当您进行采样时,它们都是离散的并且代表计数。
二项分布表示一个实验中的成功次数,它的抽奖次数是预先固定的,例如假设从一个制造过程中随机选择三个项目,每个项目都被检查并分类有缺陷,,或无缺陷,,我们看到这种情况下的样本空间是。
由于 Negative Binomial 表示失败的次数,直到您得出一定数量的成功。考虑同样的例子,假设实验是随机抽样物品,直到观察到一个有缺陷的物品。那么这种情况的样本空间是。
所以二项式在固定次数的试验中计算成功,而负二项式计算失败,直到固定次数的成功,但是对于两者,我们都是用替换绘制的,这意味着每次试验都有一个固定的成功概率。