样本比例的方差随 n 减小,但计数随 n 增大 - 为什么?

机器算法验证 二项分布 标准差
2022-03-04 17:45:15

我有一个直观的块。对于二项式问题,计数的标准差是np(1p). 反之,样本比例的标准差随着增加而减小n并且是p(1p)n. 我可以通过n但我不知道为什么标准偏差会朝相反的方向移动。

4个回答

非常粗略地,想象一下我们正在扔一枚公平的硬币。成功被定义为正面。如果我们抛一次硬币(n=1), 你会数1成功或0成功。两者都有相同的正概率发生(1/2). 现在想象我们抛硬币10次(n=10)。现在你可以得到仍然得到01成功(虽然两者都不太可能),但你也可以获得2通过10(更有可能)。如果方差衡量一组数字的分布范围,您可以看到10折腾点差比1折腾或试验。这解释了为什么成功次数的方差随着n.

使用比例(成功次数除以投掷次数),您正试图逼近p. 随着您通过更多试验获得更多信息,您对p下降,因此方差缩小。一次出现正面,你知道的不是很多(只有那个p0). 10扔的都是正面,你很确定p接近一。

让我们首先假设二项式分布标准差是正确的(它是正确的)。这是成功次数分布的标准差n给定成功概率的试验p. 调用成功次数,X.

所以Var(X)=np(1p),这就是你所拥有的(标准差平方)。

由于比例是成功次数与试验次数之比,因此我们有:

Var(Xn)=Var(X)n2=np(1p)n2=p(1p)n.

因此标准差当然是p(1p)n.

在一种情况下,您正在查看计数,在另一种情况下,您正在查看计数除以样本大小。

直观地,您可以想象成功次数的计数要高得多(X=0,1,2,,n) 比比例 (0p1)。作为n增加,X可以采用许多不同(和更大)的整数值,并且具有更多的可变性;p另一方面,被限制在 0 和 1 之间。所以X具有更大的可变性。

好的!生病使它很容易。

通常使用标准和方差时,您会向后看,试图了解正在发生的事情,然后预测未来。当你向后看时,更多的试验通常有助于获得更多的信息。越来越多的试验有助于缩小发生的范围。你现在可以更好地围绕平均值旋转。Std 和 var 只是围绕平均值旋转,因此您越来越接近将要发生的事情。

二项式不一样!我们已经知道发生了什么,我们知道概率。所以向后看没有用,因为我们已经知道概率。越来越多的试验并不能帮助我们更好地理解事物是如何围绕均值旋转的,它只是给了我们越来越广泛的分布。增加试验实际上只会提供更多的变化空间。

想象两个场景:一个你想知道房间里每个人的身高。更多测量值 = 更接近房间中的实际平均高度,您会感谢每次新测量值。

第二你有一个硬币。你已经知道平均值是多少。它的 50/50 我的意思是到那时你就完成了。所以让我们假装你开始翻转,每一次新的翻转都会有更多的错误空间。你翻转 10 次,你得到了所有 10 个正面,你对你的朋友说,这到底是怎么回事!那几率在哪里,太愚蠢了!好吧,如果您只翻转一次,那么您将只有一次机会获得一些疯狂的异常值。更多翻转并不能真正为您提供更多信息,它们只会为疯狂结果提供更多空间。

0 数学和 0 公式,希望有所帮助。

如果您正在寻找对此结果的一些直觉,请问问自己以下哪些事情更易变:

  • ……一个家庭的女性比例,还是整个国家的女性比例?

  • ... 一个家庭中的女性人数,还是整个国家的女性人数?