机器算法验证 - 在计算总体方差时，N 和 N-1 有什么区别？ - 吾爱随笔录

在计算总体方差时，N 和 N-1 有什么区别？

机器算法验证方差人口

2022-01-15 05:48:12

在计算总体方差时，N我不明白为什么存在。N-1我们什么时候用N，什么时候用N-1？

在此处输入图像描述
点击这里查看大图

它说当人口很大时，N和N-1之间没有区别，但它没有说明为什么一开始有N-1。

编辑：请不要与估算中使用的n和使用的混淆。n-1

Edit2：我不是在谈论人口估计。

4个回答

而不是进入数学，我会试着用简单的语言来表达。如果您有整个人口供您支配，那么它的方差（人口方差）是用分母计算的N。同样，如果您只有样本并且想要计算该样本的方差，则使用分母N（在本例中为样本的n ）。请注意，在这两种情况下，您都不会估计任何东西：您测量的平均值是真实平均值，您从该平均值计算的方差是真实方差。

现在，您只有样本，并且想要推断总体中未知的均值和方差。换句话说，您需要估计。您将样本平均值用于估计总体平均值（因为您的样本具有代表性），好的。要获得总体方差的估计值，您必须假设该均值实际上是总体均值，因此它不再依赖于您的样本，因为您计算了它。为了“表明”您现在将其视为固定值，您从样本中保留一个（任何）观察值以“支持”平均值：无论您的样本可能发生了什么，一个保留的观察值总是可以将平均值变为您的值ve got 并且相信对抽样意外事件不敏感。一个保留的观察是“-1”N-1在计算方差估计。无偏估计被称为样本方差（不要与样本的方差混淆），这是一种说法；最好将其称为：样本无偏估计总体方差估计与样本均值。

[从我下面的评论中粘贴到这里：想象一下你正在反复采集N=3大小样本。在样本中的 3 个值中，只有 2 个值表示观察值与总体均值的随机偏差，但左边的值表示（自行承担）样本均值与总体均值的偏移。因此，在每个单独的样本中，“自由度”观察变异性是 3 个中的 2 个。当我们估计样本的变异性但希望它是对总体变异性的无偏（无偏移）估计时，我们“相信”只有那两个自由观察。我们为从样本均值测量变异性的决定“付费”，就好像它是总体均值一样，因为我们需要推断总体变异性。这个“费”N-1分母，贝塞尔校正）使变异性更宽，将样本均值的振荡纳入方差内，但它使这种方差成为无偏估计量。]

但是现在想象一下，您以某种方式知道真实的总体均值，但想从样本中估计方差。然后你将把真实的平均值代入方差公式并应用分母N：这里不需要“-1”，因为你知道真实的平均值，你没有从同一个样本中估计它。

$N$ 是人口规模和 $n$ 是样本量。问题询问为什么总体方差是与均值的均方偏差而不是 $(N-1)/N = 1-(1/N)$ 倍它。就此而言，为什么要停在那里？为什么不将均方偏差乘以 $1-2/N$ ，或者 $1-17/N$ ，或者 $\exp(-1/N)$ ，例如？

实际上有一个很好的理由不这样做。我刚才提到的这些数字中的任何一个都可以很好地量化人口中的“典型传播”。然而，如果没有人口规模的先验知识，就不可能使用随机样本来找到这样一个数字的无偏估计量。我们知道样本方差，它将样本均值的均方偏差乘以 $(n-1)/n$ , 是带放回抽样时通常总体方差的无偏估计量。（做这个修正没有问题，因为我们知道 $n$ ！）因此，样本方差将是总体方差的任何倍数的有偏估计量，其中该倍数，例如 $1-1/N$ , 事先并不完全清楚。

这个未知量的偏差问题会传播到所有使用样本方差的统计检验，包括 t 检验和 F 检验。实际上，除以除 $N$ 在总体方差公式中，我们需要更改 t 统计量和 F 统计量的所有统计表格（以及许多其他表格），但调整将取决于总体规模。 没有人愿意尽可能地制作桌子 $N$ ！尤其是在没有必要的时候。

作为一个实际问题，当 $N$ 足够小，可以使用 $N-1$ 代替 $N$ 在公式中有所不同，您通常确实知道总体规模（或可以准确猜测），并且在处理来自总体的随机样本（无需替换）时，您可能会诉诸更实质性的小总体校正。在所有其他情况下，谁在乎？区别并不重要。由于这些原因，在教学考虑的指导下（即关注重要的细节并掩盖不重要的细节），一些优秀的介绍性统计课本甚至不费心去教导差异：它们只是提供了一个单一的方差公式（被除以 $N$ 或者 $n$ 视情况可以是）。

一般来说，当一个人只有一小部分人口，即一个样本，你应该除以n-1。这样做是有充分理由的，我们知道样本方差（将样本均值的均方偏差乘以 (n-1)/n）是总体方差的无偏估计量。

您可以在此处找到样本方差估计量无偏的证明：https ://economictheoryblog.com/2012/06/28/latexlatexs2/

此外，如果将总体方差估计量（即除以 n 的方差估计量的版本）应用于样本而不是总体，则获得的估计值将有偏差。

过去有一个论点是您应该将 N 用于非推理方差，但我不再建议这样做。您应该始终使用 N-1。随着样本量的减少，N-1 可以很好地修正样本方差变低的事实（您更有可能在分布的峰值附近进行采样——见图）。如果样本量真的很大，那么任何有意义的数量都无关紧要。

另一种解释是，人口是一个不可能实现的理论结构。因此，请始终使用 N-1，因为无论您做什么，充其量都是在估计总体方差。

此外，从现在开始，您将看到 N-1 的方差估计。您可能永远不会遇到这个问题......除非在测试中，您的老师可能会要求您区分推理和非推理方差测量。在这种情况下，不要使用 whuber 的答案或我的答案，请参阅 ttnphns 的答案。

请注意，在此图中，方差应该接近 1。当您使用 N 来估计方差时，看看它随样本量的变化有多大。（这是在其他地方提到的“偏见”）

其它你可能感兴趣的问题

上一篇神经网络的成本函数是非凸的？下一篇随机森林中的最佳树数是否取决于预测变量的数量？