在计算总体方差时,N 和 N-1 有什么区别?

机器算法验证 方差 人口
2022-01-15 05:48:12

在计算总体方差时,N不明白为什么存在。N-1我们什么时候用N,什么时候用N-1

在此处输入图像描述
点击这里查看大图

它说当人口很大时,N和N-1之间没有区别,但它没有说明为什么一开始有N-1。

编辑:请不要与估算中使用的n和使用的混淆。n-1

Edit2:我不是在谈论人口估计。

4个回答

而不是进入数学,我会试着用简单的语言来表达。如果您有整个人口供您支配,那么它的方差(人口方差)是用分母计算的N同样,如果您只有样本并且想要计算该样本的方差,则使用分母N在本例中为样本的n )。请注意,在这两种情况下,您都不会估计任何东西:您测量的平均值是真实平均值,您从该平均值计算的方差是真实方差。

现在,您只有样本,并且想要推断总体中未知的均值和方差。换句话说,您需要估计您将样本平均值用于估计总体平均值(因为您的样本具有代表性),好的。要获得总体方差的估计值,您必须假设该均值实际上是总体均值,因此它不再依赖于您的样本,因为您计算了它。为了“表明”您现在将其视为固定值,您从样本中保留一个(任何)观察值以“支持”平均值:无论您的样本可能发生了什么,一个保留的观察值总是可以将平均值变为您的值ve got 并且相信对抽样意外事件不敏感。一个保留的观察是“-1”N-1在计算方差估计。无偏估计被称为样本方差(不要与样本的方差混淆),这是一种说法;最好将其称为:样本无偏估计总体方差估计与样本均值。

[从我下面的评论中粘贴到这里:想象一下你正在反复采集N=3大小样本。在样本中的 3 个值中,只有 2 个值表示观察值与总体均值的随机偏差,但左边的值表示(自行承担)样本均值与总体均值的偏移。因此,在每个单独的样本中,“自由度”观察变异性是 3 个中的 2 个。当我们估计样本的变异性但希望它是对总体变异性的无偏(无偏移)估计时,我们“相信”只有那两个自由观察。我们为从样本均值测量变异性的决定“付费”,就好像它是总体均值一样,因为我们需要推断总体变异性。这个“费”N-1分母,贝塞尔校正)使变异性更宽,将样本均值的振荡纳入方差内,但它使这种方差成为无偏估计量。]

但是现在想象一下,您以某种方式知道真实的总体均值,但想从样本中估计方差。然后你将把真实的平均值代入方差公式并应用分母N:这里不需要“-1”,因为你知道真实的平均值,你没有从同一个样本中估计它。

N是人口规模和n是样本量。问题询问为什么总体方差是与均值的均方偏差而不是(N1)/N=1(1/N)倍它。就此而言,为什么要停在那里?为什么不将均方偏差乘以12/N, 或者117/N, 或者exp(1/N), 例如?

实际上有一个很好的理由不这样做。我刚才提到的这些数字中的任何一个都可以很好地量化人口中的“典型传播”。然而,如果没有人口规模的先验知识,就不可能使用随机样本来找到这样一个数字的无偏估计量。我们知道样本方差,它将样本均值的均方偏差乘以(n1)/n, 是带放回抽样时通常总体方差的无偏估计量。(做这个修正没有问题,因为我们知道n!)因此,样本方差将是总体方差的任何倍数的有估计量,其中该倍数,例如11/N, 事先并不完全清楚。

这个未知量的偏差问题会传播到所有使用样本方差的统计检验,包括 t 检验和 F 检验。实际上,除以除N在总体方差公式中,我们需要更改 t 统计量和 F 统计量的所有统计表格(以及许多其他表格),但调整将取决于总体规模。 没有人愿意尽可能地制作桌子N尤其是在没有必要的时候。

作为一个实际问题,当N足够小,可以使用N1代替N在公式中有所不同,您通常确实知道总体规模(或可以准确猜测),并且在处理来自总体的随机样本(无需替换)时,您可能会诉诸更实质性的小总体校正。在所有其他情况下,谁在乎?区别并不重要。由于这些原因,在教学考虑的指导下(即关注重要的细节并掩盖不重要的细节),一些优秀的介绍性统计课本甚至不费心去教导差异:它们只是提供了一个单一的方差公式(被除以N或者n视情况可以是)。

一般来说,当一个人只有一小部分人口,即一个样本,你应该除以n-1。这样做是有充分理由的,我们知道样本方差(将样本均值的均方偏差乘以 (n-1)/n)是总体方差的无偏估计量。

您可以在此处找到样本方差估计量无偏的证明:https ://economictheoryblog.com/2012/06/28/latexlatexs2/

此外,如果将总体方差估计量(即除以 n 的方差估计量的版本)应用于样本而不是总体,则获得的估计值将有偏差。

过去有一个论点是您应该将 N 用于非推理方差,但我不再建议这样做。您应该始终使用 N-1。随着样本量的减少,N-1 可以很好地修正样本方差变低的事实(您更有可能在分布的峰值附近进行采样——见图)。如果样本量真的很大,那么任何有意义的数量都无关紧要。

另一种解释是,人口是一个不可能实现的理论结构。因此,请始终使用 N-1,因为无论您做什么,充其量都是在估计总体方差。

此外,从现在开始,您将看到 N-1 的方差估计。您可能永远不会遇到这个问题......除非在测试中,您的老师可能会要求您区分推理和非推理方差测量。在这种情况下,不要使用 whuber 的答案或我的答案,请参阅 ttnphns 的答案。

图1

请注意,在此图中,方差应该接近 1。当您使用 N 来估计方差时,看看它随样本量的变化有多大。(这是在其他地方提到的“偏见”)