如果观察结果重复,为什么样本的方差会发生变化?

机器算法验证 方差
2022-01-23 14:23:36

方差被称为传播的量度。所以,我曾认为 的方差3,5等于 的方差,3,3,5,5因为这些数字是均匀分布的。但事实并非如此,is的方差3,52的方差3,3,5,51 1/3

考虑到方差应该是传播的衡量标准,这让我感到困惑。

那么,在这种情况下,传播度量是什么意思?

2个回答

如果您将方差定义为 - 类似于总体方差但是对于的样本均值,那么您的两个样本将具有相同的方差。sn2=MSE=1ni=1n(xix¯)2μ

所以差异纯粹是因为贝塞尔在通常的样本方差公式中的校正( ,它根据样本均值比总体均值更接近数据的事实进行调整,以使其无偏(“平均”取正确的值)。sn12=nn1MSE=nn11ni=1n(xix¯)2=1n1i=1n(xix¯)2

随着样本量的增加,这种影响逐渐消失,因为中变为 1 n1nn

顺便说一下,没有什么特别的理由必须使用无偏估计量来计算方差是一个完全有效的估计量,在某些情况下可能比更常见的形式更有优势(无偏性不一定那么大交易)。sn2

方差本身并不是直接衡量价差的指标。如果我将数据集中的所有值加倍,我认为它们是“传播”的两倍。但是方差增加了 4 倍。因此,更常见的说法是标准差而不是方差是散布的度量。

当然,标准差(通常的版本)和方差会出现同样的问题——当你将点加倍时,标准差会发生变化,原因与方差发生的原因相同。sn1

在小样本中,由于这种影响(复制样本会改变值),贝塞尔校正使标准偏差作为一种散布的度量变得不那么直观。但是在复制样本时,许多传播度量确实保留了相同的值。我提几个——

  • sn(当然)

  • 与平均值的平均值(绝对)偏差

  • 中位数(绝对)偏离中位数

  • 四分位数范围(至少对于样本四分位数的某些定义)

作为某种助记符,所以样本方差的期望值太低,差值就是样本均值的方差。VX=EVX+VEX

通常的样本方差公式对此进行了补偿,并且样本均值的方差与样本大小成反比。

作为一个极端的例子,取单个样本将始终显示样本方差为 0,显然并不表示基础分布的方差为 0。

现在对于 2 和 4 个均匀加权的样本,校正因子分别为因此,您计算出的预期方差相差倍。在任何一种情况下,样本本身的方差都是但是第一种情况是一个较弱的情况,因为是基本分布的平均值,并且每隔一个值就意味着更大的方差。2/14/32/314