样本方差的替代(?)定义

机器算法验证 方差 定义
2022-03-19 03:27:00

样本的方差可以定义为

s2=121n(n1)iji(xixj)2

除了的因素,这可以口头解释为1/2

方差是不同数据点对之间的平方距离的平均值

在数学上,这相当于方差的“通常”定义,然而,从概念上讲,它(在我看来)在两个方面完全不同:s2=1n1(xix¯)2

  1. 这个定义没有参考平均值 ; 我们不是在测量点与平均值之间的距离,而是在测量点之间的距离x¯
  2. 的因子——众所周知,它是学生混淆的根源(参见,例如,计算标准差时除以的直观解释? )——自然出现,因为有有序的不同数据点对不需要关于“缓冲”样本方差的挥手理由,也不需要复杂的估计偏差计算。n1n1n(n1)(xi,xj),ij

同样,为了清楚起见,我理解为什么的分母,并且我理解上面的双和定义在数学上等同于标准定义。我想知道的:s2n1

是否有上下文(教学或其他)更常提及方差的替代定义(作为数据点对的双和)?例如,是否有任何教科书将其作为主要定义?

1个回答

使用对称性,你的双和可以写成 因此是一个2阶 U 统计量,内核用于估计参数 , iid。它实际上是 U 统计量中最突出、最重要的例子之一,并在理论数学统计课程中大放异彩。

s2=avei<jf(xi,xj)
f(x,y):=12(xy)2fθ=E(f(X,Y))==Var(X)XY

成为 U 统计量很好,因为例如

  • 一个 U 统计量自动是“最优的”,在U偏差最小方差的意义上(再见 Rao-Blackwell 定理)和

  • 它的方差有一个(或多或少明确的)公式,因此它的标准误差。

的这种替代表示在实践中很少使用,尽管正如您所提到的,它似乎突出了变化的不同方面(“两个随机选择之间的典型平方差”而不是“随机选择之间的典型平方差”挑选和平均”)。s2

的 U 统计量表示总是让我想起决策树学习中使用的 Gini 杂质,它通常在分类响应中扮演方差的角色。对于具有水平的离散随机变量,它被定义为 因此是两个随机选择不相等的概率(再次类似于两个随机选择之间的典型差异)。s2Zz1,,zmPr(Z=zj)=pj

I(Z)=1j=1mpi2=ijipipj,