机器算法验证 - 为什么我们需要一个估计器来保持一致？ - 吾爱随笔录

为什么我们需要一个估计器来保持一致？

机器算法验证数理统计估计一致性

2022-02-03 00:16:01

我想，我已经理解了一致估计量的数学定义。如我错了请纠正我：

$W_n$ 如果是 $\theta$ $\forall \epsilon>0$

lim_{n \to \infty} P (| W_{n} - θ | > ϵ) = 0, \forall θ \in Θ

$\lim_{n\to\infty} P(|W_n - \theta|> \epsilon) = 0, \quad \forall\theta \in \Theta$

其中， $\Theta$ 是参数空间。但我想了解估计器需要保持一致。为什么不一致的估计量不好？你能给我一些例子吗？

我接受 R 或 python 中的模拟。

4个回答

如果估计量不一致，它就不会收敛到概率的真实值。换句话说，无论您有多少数据点，您的估计值和真实值总是有可能存在差异。这实际上很糟糕，因为即使您收集了大量数据，您的估计也总是有可能与真实值有一些不同的 $\epsilon>0$ 实际上，您可以将这种情况视为您正在使用一个数量的估计器，这样即使调查所有人口而不是一小部分样本，也无济于事。

考虑观测值，这与具有 1 个自由度的学生 t 分布相同。这种分布的尾部足够重，没有均值；分布的中心是它的中位数 $n = 10\,000$ $\eta = 0.$

一个样本序列意味着对于柯西分布的中心不一致。粗略地说，困难在于非常极端的观察没有机会收敛到（不仅收敛缓慢，而且永远不会收敛的分布又是标准的 Cauchy [证明]。） $A_j = \frac 1j \sum_{i=1}^j X_i$ $X_i$ $A_j$ $\eta = 0.$ $A_j$ $A_j$

相比之下，在连续抽样过程的任何一步，大约一半的观测值将位于因此样本中位数的序列确实会收敛到 $X_i$ $\eta,$ $H_j$ $\eta.$

A_j的收敛和的收敛的通过以下模拟来说明。 $A_j$ $H_j$

set.seed(2019)  # for reproducibility
n = 10000;  x = rt(n, 1);  j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
  h[i] = median(x[1:i])  } 
par(mfrow=c(1,2))
 plot(j,a, type="l", ylim=c(-5,5), lwd=2,
    main="Trace of Sample Mean")
  abline(h=0, col="green2")
  k = j[abs(x)>1000] 
  abline(v=k, col="red", lty="dotted")
 plot(j,h, type="l", ylim=c(-5,5), lwd=2,
     main="Trace of Sample Median")
  abline(h=0, col="green2") 
par(mfrow=c(1,1))

这是您可以在左侧的图中（垂直红色虚线处）看到其中一些极端观察对运行平均值的影响。 $|X_i| > 1000.$

k = j[abs(x)>1000]
rbind(k, round(x[k]))
   [,1] [,2] [,3]  [,4] [,5]  [,6]   [,7]  [,8]
k   291  898 1293  1602 2547  5472   6079  9158
  -5440 2502 5421 -2231 1635 -2644 -10194 -3137

估计中重要的一致性：观测值样本的样本平均值对于估计中心并不比仅一个观测值更好。相比之下，一致的样本中位数收敛到因此更大的样本会产生更好的估计。 $n = 10\,000$ $\eta$ $\eta,$

一个非常简单的例子说明为什么考虑一致性很重要，我认为它没有得到足够的关注，那就是过度简化的模型。

作为一个理论示例，假设您想在某些数据上拟合线性回归模型，其中真实效果实际上是非线性的。那么您的预测对于所有协变量组合的真实均值不能保持一致，而更灵活的可能可以。换句话说，简化模型将存在无法通过使用更多数据来克服的缺点。

@BruceET 已经给出了一个很好的技术答案，但我想补充一点关于它的解释。

统计学中的一个基本概念是，随着样本量的增加，我们可以就我们的潜在分布得出更精确的结论。您可以将其视为获取大量样本消除数据中的随机抖动的概念，因此我们可以更好地了解底层结构。

这方面的定理例子很多，但最著名的是大数定律，它断言如果我们有一个 iid 随机变量族和，然后 $(X_i)_{i\in\mathbb{N}} \$ $\mathbb{E}[X_1] < \infty$

\frac{1}{n} \sum_{k = 1}^{n} X_{k} \to E [X] a.s.

$\frac{1}{n} \sum_{k = 1}^n X_k \rightarrow \mathbb{E}[X] \ \ \ \text{a.s.}$

现在，要求一个估计器是一致的就是要求它也遵循这个规则：由于它的工作是估计一个未知参数，我们希望它收敛到那个参数（阅读：任意地估计那个参数）作为我们的样本大小趋于无穷大。

方程

lim_{n \to \infty} P (| W_{n} - θ | > ϵ) = 0, \forall ϵ > 0 \forall θ \in Θ

$\lim_{n\to\infty} P(|W_n - \theta|> \epsilon) = 0, \quad \forall\epsilon > 0\ \forall\theta \ \in \Theta$

只不过是随机变量向的概率收敛，这意味着在某种意义上，更大的样本将使我们越来越接近真实值。 $W_n$ $\theta$

现在，如果你愿意，你可以反过来看：如果那个条件失败，那么即使有无限的样本量，也会有一个宽度为正的“走廊”在附近和一个非零概率，即使有任意大的样本量，我们的估计器也会落在那个走廊之外。这显然会违反上述想法，因此一致性是估计者渴望和执行的一个非常自然的条件。 $[\theta - \varepsilon, \theta + \varepsilon]$ $\theta$

其它你可能感兴趣的问题

上一篇入门和学习 R 的方法？下一篇你做了什么/做了什么来记住贝叶斯规则？