机器算法验证 - 为什么需要更大的样本来估计更高的时刻而不是估计平均值？ - 吾爱随笔录

为什么需要更大的样本来估计更高的时刻而不是估计平均值？

机器算法验证估计样本量推理时刻

2022-04-17 23:11:59

维基百科关于矩的文章指出，“矩越高，估计就越难，因为需要更大的样本才能获得类似质量的估计”。为什么会这样？这里的“质量”是什么意思？

1个回答

首先回答您的第二个问题-“质量”意味着“准确性”，并且可以通过多种方式定义准确性，因此定义中缺乏数学精度。

在许多情况下，更高的时刻更难估计，而在其他情况下更容易估计。如果数据的概率分布使得平均值等于 0 并且所有数据都位于中，则更高的矩将被更准确地估计，因为它们通常会收敛到零作为矩的索引走向无穷大。以高精度估计均匀分布在 (-0.5, 0.5) 上的变量的 101 阶矩真的很容易： $(-1, 1)$

x1 <- x101 <- rep(0, 10000)
for (i in 1:length(x)) {
  u <- runif(5)-0.5
  x1[i] <- mean(u)
  x101[i] <- mean((u-x1[i])^101)
}
> sqrt(mean(x1*x1))
[1] 0.1289411
> sqrt(mean(x101*x101))
[1] 1.880887e-16

基于样本大小为 5 的均值估计的 RMSE 为，在我们的 10,000 个样本上给出或取一点采样误差，但第 101 时刻的 RMSE 为 , 小得多。 $0.129$ $1.9\text{x}10^{-16}$

但是，如果值的概率大于 1，情况就会发生变化。现在，因为我们将较大的样本值（那些）提高到更高的幂，它们变得更大，而不是更小。考虑相同的实验，但变量均匀分布在 (-5, 5) 上（跳过代码的琐碎重写）： $>1$

> sqrt(mean(x1*x1))
[1] 1.290788
> sqrt(mean(x101*x101))
[1] 4.029381e+85

您可以想象，将 RMSE 的 101 次幂降低到与第一时刻的估计值（1.3）大致相同的精度需要大量数据。当我们将样本量从 5 增加到 5000 时，会发生以下情况： $4\text{x}10^{85}$

> sqrt(mean(x101*x101))
[1] 4.596604e+68

可以肯定的是，大幅减少，但还有很长的路要走。

如上所述，其原因是当我们计算更高级别矩的样本估计时（通过计算样本数据的相应矩），我们将观察到的数字提高到越来越高的幂。当它们时，这会使它们越来越大。因此，矩计算的分子越来越大，因此您需要更大的分母（即样本量）来补偿。 $>1$

另请注意，如果您对数据的分布做出假设，则维基百科声明不必成立。例如，如果我们假设数据是正态分布的，那么我们对所有奇数矩的“估计”将等于 0，无论样本大小或矩有多大。

其它你可能感兴趣的问题

上一篇我们可以将配分函数吸收到自然参数向量中吗？下一篇在分类模型中结合文本和非文本特征