负二项分布与二项分布

机器算法验证 分类数据 数据挖掘 二项分布 负二项分布
2022-01-29 01:39:23

负二项分布和二项分布有什么区别?

我尝试在线阅读,发现数据点离散时使用负二项分布,但我认为即使是二项分布也可以用于离散数据点。

3个回答

不同之处是我们感兴趣的。这两种分布都是由独立的伯努利试验构建的,成功概率为p

对于二项分布,随机变量X是在n次试验中观察到的成功次数。因为试验次数是固定的,所以X的可能值为0, 1, ..., n

对于负二项分布,随机变量 Y 是在观察到第r次成功之前的试验次数。在这种情况下,我们不断增加试验次数,直到达到r次成功。Y 的可能值为r , r+1 , r+2 , ... 没有上限。负二项式也可以根据第r次成功之前的失败次数来定义,而不是根据第r次成功之前的试验次数来定义。维基百科以这种方式定义负二项分布。

所以总结一下:

二项式

  • 固定试验次数 ( n )
  • 固定成功概率 ( p )
  • 随机变量是 X = 成功次数。
  • 可能的值为 0 ≤ Xn

负二项式

  • 固定成功次数 ( r )
  • 固定成功概率 ( p )
  • 随机变量是 Y = 直到第r次成功的试验次数。
  • 可能的值是rY

感谢 Ben Bolker 提醒我提及对这两个发行版的支持。他在这里回答了一个相关的问题

负二项分布尽管看起来与二项分布有明显的关系,但实际上与泊松分布相比更好。顺便说一句,这三个都是离散的。

在实际应用中,当您观察到高于 Poisson 预期的色散(方差)时,NB 是 Poisson 的替代方案。当您处理计数数据时,泊松是首先要考虑的选择,例如小镇每年的车祸死亡人数。泊松分布的均值和方差都由一个参数定义 - 发生率,通常表示为只要您估计,您的均值和方差就会随之而来。事实上,均值必须等于方差。λλ

如果您的数据表明方差大于均值(过度离散),这排除了泊松,那么负二项式将是下一个要查看的分布。它有多个参数,因此它的方差可能大于均值。

NB 与二项式的关系来自底层过程,正如@Jelsema 的回答中所描述的那样。这个过程是相关的,所以分布也是相关的,但正如我在这里解释的那样,与泊松分布的链接在实际应用中更接近。

更新:另一方面是参数化。二项分布有两个参数:p 和 n。它的真实域是 0 到 n。因为它不仅是离散的,而且是在一组有限的数字上定义的。

相反,泊松和 NB 都是在无限的非负整数集上定义的。Poisson 有一个参数,而 NB 有两个:p 和 r。请注意,这两个没有参数因此,这是了解 NB 和 Poisson 如何连接的另一种方式。λn

当您进行采样时,它们都是离散的并且代表计数。

二项分布表示一个实验中的成功次数,它的抽奖次数是预先固定的,例如假设从一个制造过程中随机选择三个项目,每个项目都被检查并分类有缺陷,,或无缺陷,,我们看到这种情况下的样本空间是DNS=(DDD,DDN,DND,DNN,NDD,NDN,NND,NNN)

由于 Negative Binomial 表示失败的次数,直到您得出一定数量的成功。考虑同样的例子,假设实验是随机抽样物品,直到观察到一个有缺陷的物品。那么这种情况的样本空间是S=(D,ND,NND,NNND,...)

所以二项式在固定次数的试验中计算成功,而负二项式计算失败,直到固定次数的成功,但是对于两者,我们都是用替换绘制的,这意味着每次试验都有一个固定的成功概率p