为什么二项分布是钟形的?

机器算法验证 正态分布 二项分布 伯努利分布 泊松二项分布
2022-03-24 10:54:42

我希望只有零和一之间的值(0 => 失败和 1 => 成功),但值会上升得更高。例如,如果我搜索“二项分布图”,这是我收到的第一个图像结果。

二项分布图

现在,我可以看到这是期望值的总和,而不是期望值的平均值,但如果是这种情况,那么为什么表示正态分布的图表通常显示为平均值?例如,正态分布的常见显示是男性身高图表。

正态分布图

然而,这显然是一个男人的平均身高,而不是许多男人的身高相加。

也许最令人困惑的部分是为什么二项分布接近正态,但实际上并非正态。

二项式与正常的比较
(来源:real-statistics.com

提前致谢!

1个回答

二项分布随着次伯努利试验的成功次数而出现。每个试验要么成功,要么不成功,因此试验中的成功次数可以是中的任何一个值。例如,一次投掷 3 次正面朝上的次数可以是 0、1、2 或 3。nn0,1,2,...,n

如果一个除以试验次数得到次试验成功的比例,那么可能的值为这可以称为缩放二项式。n0,1n,2n,...,n1n,1

您使用哪个取决于您对建模感兴趣的事物。

然而,这显然是一个男人的平均身高

这是不正确的。该直方图总结了个人身高,而不是平均身高。高度实际上也不是正态分布的。出于某些目的,它的近似值还不错,但高度的分布(显然)实际上并不正常。一方面,负高度的可能性为零,但正态分布都有负值的非零可能性(尽管在某些情况下它的可能性可能非常小)。

也许最令人困惑的部分是为什么二项分布接近正态,但实际上并非正态。

嗯,最明显的区别(许多区别之一)是它是一个计数——一个离散分布;二项式累积分布函数 (cdf) 始终是阶跃函数。正态分布是连续的;他们的 cdf 从来都不是阶跃函数。

来说,它看起来像钟形,只有当变得足够大时才会发生这种情况(尽管如果是中等的,那么什么才算“足够大”以看起来是钟形的)可能很小)。对于小它通常不是非常钟形的,它只是几个尖峰(例如,我不会将称为任何的钟形)。nnpnn=2p

如果非常接近,它可能需要一个非常大的才能开始看起来像钟形——这是一个的例子,它看起来一点也不像钟形——p01nn=100

在此处输入图像描述

的增加,它最终会开始看起来更像钟形。n

(在趋于无穷的极限中,中心极限定理告诉我们标准化二项式变量的 cdf 将收敛到标准正态 cdf。)n

至于为什么在一些或多或少的中等样本量下会发生这种情况,这是因为它是许多独立部分(单个试验)的总和;当您在混合中添加更多时,密度卷积(或离散变量中的 pmfs)变得更加钟形(在某些条件下,所有这些都将满足独立的伯努利试验)。

考虑添加两个(独立的)这样的 0-1 变量。它们都是1(总共是 2)的概率是并且它们都是 0 的概率是,但是一个是 0 而另一个是 1 的概率是(这些都来自基本的概率考虑)。如果在 1/3 和 2/3 之间,则该概率将超过两个端点(也就是说,极端和比中间的更难获得,因为中等结果可能以更多方式出现),并且当你添加更多术语,极端情况变得越来越少,并且中心得到那个特征“凹凸”。p2(1p)22p(1p)p

变大,标准化二项式的 cdf 将变得更接近标准正态的 cdf 。处它可能与正常值相差多远(但这是最坏的情况;二项式往往比该界限所暗示的更接近)。nn