为什么我们需要一个估计器来保持一致?

机器算法验证 数理统计 估计 一致性
2022-02-03 00:16:01

我想,我已经理解了一致估计量的数学定义。如我错了请纠正我:

Wn如果\forall \epsilon>0 , W_nθϵ>0

limnP(|Wnθ|>ϵ)=0,θΘ

其中,Θ是参数空间。但我想了解估计器需要保持一致。为什么不一致的估计量不好?你能给我一些例子吗?

我接受 R 或 python 中的模拟。

4个回答

如果估计量不一致,它就不会收敛到概率的真实值。换句话说,无论您有多少数据点,您的估计值和真实值总是有可能存在差异。这实际上很糟糕,因为即使您收集了大量数据,您的估计也总是有可能与真实值有一些不同的ϵ>0实际上,您可以将这种情况视为您正在使用一个数量的估计器,这样即使调查所有人口而不是一小部分样本,也无济于事。

考虑观测值,这与具有 1 个自由度的学生 t 分布相同。这种分布的尾部足够重,没有均值;分布的中心是它的中位数n=10000η=0.

一个样本序列意味着对于柯西分布的中心不一致。粗略地说,困难在于非常极端的观察没有机会收敛到不仅收敛缓慢,而且永远不会收敛的分布又是标准的 Cauchy [证明]。)Aj=1ji=1jXiXiAjη=0.AjAj

相比之下,在连续抽样过程的任何一步,大约一半的观测值将位于因此样本中位数的序列确实会收敛到Xiη,Hjη.

A_j的收敛和的收敛的通过以下模拟来说明。AjHj

set.seed(2019)  # for reproducibility
n = 10000;  x = rt(n, 1);  j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
  h[i] = median(x[1:i])  } 
par(mfrow=c(1,2))
 plot(j,a, type="l", ylim=c(-5,5), lwd=2,
    main="Trace of Sample Mean")
  abline(h=0, col="green2")
  k = j[abs(x)>1000] 
  abline(v=k, col="red", lty="dotted")
 plot(j,h, type="l", ylim=c(-5,5), lwd=2,
     main="Trace of Sample Median")
  abline(h=0, col="green2") 
par(mfrow=c(1,1))

在此处输入图像描述

这是您可以在左侧的图中(垂直红色虚线处)看到其中一些极端观察对运行平均值的影响。|Xi|>1000.

k = j[abs(x)>1000]
rbind(k, round(x[k]))
   [,1] [,2] [,3]  [,4] [,5]  [,6]   [,7]  [,8]
k   291  898 1293  1602 2547  5472   6079  9158
  -5440 2502 5421 -2231 1635 -2644 -10194 -3137

估计中重要的一致性:观测值样本的样本平均值对于估计中心并不比仅一个观测值更好。相比之下,一致的样本中位数收敛到因此更大的样本会产生更好的估计。n=10000ηη,

一个非常简单的例子说明为什么考虑一致性很重要,我认为它没有得到足够的关注,那就是过度简化的模型。

作为一个理论示例,假设您想在某些数据上拟合线性回归模型,其中真实效果实际上是非线性的。那么您的预测对于所有协变量组合的真实均值不能保持一致,而更灵活的可能可以。换句话说,简化模型将存在无法通过使用更多数据来克服的缺点。

@BruceET 已经给出了一个很好的技术答案,但我想补充一点关于它的解释。

统计学中的一个基本概念是,随着样本量的增加,我们可以就我们的潜在分布得出更精确的结论。您可以将其视为获取大量样本消除数据中的随机抖动的概念,因此我们可以更好地了解底层结构。

这方面的定理例子很多,但最著名的是大数定律,它断言如果我们有一个 iid 随机变量族,然后(Xi)iN E[X1]<

1nk=1nXkE[X]   a.s.

现在,要求一个估计器是一致的就是要求它也遵循这个规则:由于它的工作是估计一个未知参数,我们希望它收敛到那个参数(阅读:任意地估计那个参数)作为我们的样本大小趋于无穷大。

方程

limnP(|Wnθ|>ϵ)=0,ϵ>0 θ Θ

只不过是随机变量的概率收敛,这意味着在某种意义上,更大的样本将使我们越来越接近真实值。Wnθ

现在,如果你愿意,你可以反过来看:如果那个条件失败,那么即使有无限的样本量,也会有一个宽度为正的“走廊”附近和一个非零概率,即使有任意大的样本量,我们的估计器也会落在那个走廊之外。这显然会违反上述想法,因此一致性是估计者渴望和执行的一个非常自然的条件。[θε,θ+ε]θ