为什么需要更大的样本来估计更高的时刻而不是估计平均值?

机器算法验证 估计 样本量 推理 时刻
2022-04-17 23:11:59

维基百科关于矩的文章指出,“矩越高,估计就越难,因为需要更大的样本才能获得类似质量的估计”。为什么会这样?这里的“质量”是什么意思?

1个回答

首先回答您的第二个问题-“质量”意味着“准确性”,并且可以通过多种方式定义准确性,因此定义中缺乏数学精度。

在许多情况下,更高的时刻更难估计,而在其他情况下更容易估计。如果数据的概率分布使得平均值等于 0 并且所有数据都位于中,则更高的矩将被更准确地估计,因为它们通常会收敛到零作为矩的索引走向无穷大。以高精度估计均匀分布在 (-0.5, 0.5) 上的变量的 101 阶矩真的很容易:(1,1)

x1 <- x101 <- rep(0, 10000)
for (i in 1:length(x)) {
  u <- runif(5)-0.5
  x1[i] <- mean(u)
  x101[i] <- mean((u-x1[i])^101)
}
> sqrt(mean(x1*x1))
[1] 0.1289411
> sqrt(mean(x101*x101))
[1] 1.880887e-16

基于样本大小为 5 的均值估计的 RMSE 为,在我们的 10,000 个样本上给出或取一点采样误差,但第 101 时刻的 RMSE 为 , 小得多。0.1291.9x1016

但是,如果值的概率大于 1,情况就会发生变化。现在,因为我们将较大的样本值(那些)提高到更高的幂,它们变得更大,而不是更小。考虑相同的实验,但变量均匀分布在 (-5, 5) 上(跳过代码的琐碎重写):>1

> sqrt(mean(x1*x1))
[1] 1.290788
> sqrt(mean(x101*x101))
[1] 4.029381e+85

您可以想象,将 RMSE 的 101 次幂降低到与第一时刻的估计值(1.3)大致相同的精度需要大量数据。当我们将样本量从 5 增加到 5000 时,会发生以下情况:4x1085

> sqrt(mean(x101*x101))
[1] 4.596604e+68

可以肯定的是,大幅减少,但还有很长的路要走。

如上所述,其原因是当我们计算更高级别矩的样本估计时(通过计算样本数据的相应矩),我们将观察到的数字提高到越来越高的幂。当它们时,这会使它们越来越大。因此,矩计算的分子越来越大,因此您需要更大的分母(即样本量)来补偿。>1

另请注意,如果您对数据的分布做出假设,则维基百科声明不必成立。例如,如果我们假设数据是正态分布的,那么我们对所有奇数矩的“估计”将等于 0,无论样本大小或矩有多大。