为什么 James-Stein 估计器被称为“收缩”估计器?

机器算法验证 估计 术语 正则化 斯坦斯现象
2022-02-06 02:16:40

我一直在阅读有关 James-Stein 估计器的信息。在本注释中,它被定义

θ^=(1p2X2)X

我已阅读证明,但我不明白以下陈述:

在几何上,James-Stein 估计器将X的每个分量向原点收缩......

“将X的每个组件向原点收缩X”到底是什么意思?我在想像

θ^02<X02,
这样的东西,在这种情况下只要(p+2)<X2,因为
θ^=X2(p+2)X2X.

这就是人们所说的“缩小到零”的意思吗,因为在L^2范数意义上,JS 估计器比XL2更接近于零X

截至 2017 年 9 月 22 日的更新:今天我意识到也许我把事情复杂化了。似乎人们的意思是,一旦您将X乘以小于1的值,即术语X2(p+2)X2X的每个分量都X将比以前小。

1个回答

一张图有时抵得上一千个字,所以让我和你分享一张。下面您可以看到来自 Bradley Efron (1977) 论文Stein's paradox in statistics的插图。如您所见,Stein 的估计器所做的是使每个值更接近总平均值。它使大于总平均值的值更小,而小于总平均值的值更大。收缩是指将值向平均值移动,或者在某些情况下向零移动(例如正则化回归),这会将参数向零收缩。

来自 Efron (1977) 的 Stein 估计器的插图

当然,这不仅仅是缩小自身,Stein (1956)James and Stein (1961)已经证明,Stein 的估计量在总平方误差方面优于最大似然估计量,

Eμ(μ^JSμ2)<Eμ(μ^MLEμ2)

其中是斯坦因估计量,,其中两个估计量都是在样本上估计的。证明在原始论文和您参考的论文的附录中给出。用简单的英语来说,他们所表明的是,如果您同时进行猜测,那么就总平方误差而言,与坚持最初的猜测相比,通过缩小它们会做得更好。μ=(μ1,μ2,,μp)μ^iJSμ^iMLE=xix1,x2,,xpp>2

最后,Stein 估计器肯定不是唯一给出收缩效应的估计器。对于其他示例,您可以查看此博客条目,或 Gelman 等人引用的贝叶斯数据分析书。您还可以查看有关正则化回归的线程,例如收缩方法解决了什么问题?,或何时使用正则化方法进行回归?, 对于这种效果的其他实际应用。