我想,我已经理解了一致估计量的数学定义。如我错了请纠正我:
如果\forall \epsilon>0 , W_n是
其中,是参数空间。但我想了解估计器需要保持一致。为什么不一致的估计量不好?你能给我一些例子吗?
我接受 R 或 python 中的模拟。
我想,我已经理解了一致估计量的数学定义。如我错了请纠正我:
如果\forall \epsilon>0 , W_n是
其中,是参数空间。但我想了解估计器需要保持一致。为什么不一致的估计量不好?你能给我一些例子吗?
我接受 R 或 python 中的模拟。
如果估计量不一致,它就不会收敛到概率的真实值。换句话说,无论您有多少数据点,您的估计值和真实值总是有可能存在差异。这实际上很糟糕,因为即使您收集了大量数据,您的估计也总是有可能与真实值有一些不同的实际上,您可以将这种情况视为您正在使用一个数量的估计器,这样即使调查所有人口而不是一小部分样本,也无济于事。
考虑观测值,这与具有 1 个自由度的学生 t 分布相同。这种分布的尾部足够重,没有均值;分布的中心是它的中位数
一个样本序列意味着对于柯西分布的中心不一致。粗略地说,困难在于非常极端的观察没有机会收敛到(不仅收敛缓慢,而且永远不会收敛的分布又是标准的 Cauchy [证明]。)
相比之下,在连续抽样过程的任何一步,大约一半的观测值将位于因此样本中位数的序列确实会收敛到
A_j的收敛和的收敛的通过以下模拟来说明。
set.seed(2019) # for reproducibility
n = 10000; x = rt(n, 1); j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
h[i] = median(x[1:i]) }
par(mfrow=c(1,2))
plot(j,a, type="l", ylim=c(-5,5), lwd=2,
main="Trace of Sample Mean")
abline(h=0, col="green2")
k = j[abs(x)>1000]
abline(v=k, col="red", lty="dotted")
plot(j,h, type="l", ylim=c(-5,5), lwd=2,
main="Trace of Sample Median")
abline(h=0, col="green2")
par(mfrow=c(1,1))
这是您可以在左侧的图中(垂直红色虚线处)看到其中一些极端观察对运行平均值的影响。
k = j[abs(x)>1000]
rbind(k, round(x[k]))
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
k 291 898 1293 1602 2547 5472 6079 9158
-5440 2502 5421 -2231 1635 -2644 -10194 -3137
估计中重要的一致性:观测值样本的样本平均值对于估计中心并不比仅一个观测值更好。相比之下,一致的样本中位数收敛到因此更大的样本会产生更好的估计。
一个非常简单的例子说明为什么考虑一致性很重要,我认为它没有得到足够的关注,那就是过度简化的模型。
作为一个理论示例,假设您想在某些数据上拟合线性回归模型,其中真实效果实际上是非线性的。那么您的预测对于所有协变量组合的真实均值不能保持一致,而更灵活的可能可以。换句话说,简化模型将存在无法通过使用更多数据来克服的缺点。
@BruceET 已经给出了一个很好的技术答案,但我想补充一点关于它的解释。
统计学中的一个基本概念是,随着样本量的增加,我们可以就我们的潜在分布得出更精确的结论。您可以将其视为获取大量样本消除数据中的随机抖动的概念,因此我们可以更好地了解底层结构。
这方面的定理例子很多,但最著名的是大数定律,它断言如果我们有一个 iid 随机变量族 和 ,然后
现在,要求一个估计器是一致的就是要求它也遵循这个规则:由于它的工作是估计一个未知参数,我们希望它收敛到那个参数(阅读:任意地估计那个参数)作为我们的样本大小趋于无穷大。
方程
只不过是随机变量向的概率收敛,这意味着在某种意义上,更大的样本将使我们越来越接近真实值。
现在,如果你愿意,你可以反过来看:如果那个条件失败,那么即使有无限的样本量,也会有一个宽度为正的“走廊”在附近和一个非零概率,即使有任意大的样本量,我们的估计器也会落在那个走廊之外。这显然会违反上述想法,因此一致性是估计者渴望和执行的一个非常自然的条件。