为什么泊松分布和二项分布对同一问题给出不同的结果?

机器算法验证 r 分布 二项分布 泊松分布
2022-03-16 19:08:34

我是统计和 R 的新手。所以,我偶然发现了某些问题。请多多包涵。

有个问题——工厂里 2% 的产品有缺陷。100 件商品中有 2 件有缺陷的概率是多少?

我的教科书将其求解为泊松分布并取 l = np = 2。然后使用 PDF 求解,得到的答案为 0.2706。对应的 R 语法是dpois(2,2)

我使用二项分布解决了并使用dbinom(2, 100, 0.02)了但得到了一些不同的东西。然而dbinom(1, 100, 0.02),接近泊松分布的答案。

所以,我了解到泊松是一种特殊的二项式,其中 n 趋于无穷大而 p 非常小。但是,他们应该给出相同的结果,不是吗?

也许我在问一些非常琐碎的事情并且遗漏了一些东西。请帮帮我。提前致谢。

1个回答

两者产生几乎相同的结果:

> dpois(2,2)
[1] 0.2706706
> dbinom(2,100,.02)
[1] 0.2734139

当 n 趋于无穷且 p 趋于零时,这两个结果都会变得更加相似,但是 n=100 很大,但比无穷小得多,因此您可以获得高达几个有效数字的准确结果。

编辑以回应评论: 好的..所以基于 n 我应该选择使用哪种方法?

您的语句中的变量是根据二项式分布的。因此,二项分布会产生准确的结果。然后,如果你能做数学,你应该使用二项分布。

但是,有时使用二项式计算很困难,特别是当计算需要手动完成或某些参数未知时。然后,如果 n 很大,您可以使用二项式的两个近似值:

  • 如果 n 很大而 p 很小,则可以使用泊松分布来近似二项式(如本题所示)。
  • 如果 n 很大且 n*p 不小,则可以使用正态分布来近似二项式。

例如,使用二项式手动解决您的问题涉及计算0.9898,这可能需要一点时间,而使用泊松解决它不需要任何比e2,即使您手头没有对数表,这也容易得多。

但是,如果您使用 R、Excel 或任何其他具有统计功能的软件,则无需担心此类近似值,因为程序会在需要时处理它们。