机器算法验证 - 为什么 James-Stein 估计器被称为“收缩”估计器？ - 吾爱随笔录

为什么 James-Stein 估计器被称为“收缩”估计器？

机器算法验证估计术语正则化斯坦斯现象

2022-02-06 02:16:40

我一直在阅读有关 James-Stein 估计器的信息。在本注释中，它被定义为

\hat{θ} = (1 - \frac{p - 2}{‖ X ‖^{2}}) X

$\hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X$

我已阅读证明，但我不明白以下陈述：

在几何上，James-Stein 估计器将 $X$ 的每个分量向原点收缩......

的每个组件向原点收缩 $X$ ”到底是什么意思？我在想像

‖ \hat{θ} - 0 ‖^{2} < ‖ X - 0 ‖^{2},

$\|\hat{\theta} - 0\|^2 < \|X - 0\|^2,$ 这样的东西，在这种情况下只要

(p + 2) < ‖ X ‖^{2}

$(p+2) < \|X\|^2$ ，因为

‖ \hat{θ} ‖ = \frac{‖ X ‖^{2} - (p + 2)}{‖ X ‖^{2}} ‖ X ‖ .

$\|\hat{\theta}\| = \frac{\|X\|^2 - (p+2)}{\|X\|^2} \|X\|.$

这就是人们所说的“缩小到零”的意思吗，因为在 $L^2$ 更接近于零？ $X$

截至 2017 年 9 月 22 日的更新：今天我意识到也许我把事情复杂化了。似乎人们的意思是，一旦您将 $X$ 乘以小于 $1$ 的值，即术语 $\frac{\|X\|^2 - (p + 2)}{\|X\|^2}$ ，的每个分量都 $X$ 将比以前小。

1个回答

一张图有时抵得上一千个字，所以让我和你分享一张。下面您可以看到来自 Bradley Efron (1977) 论文Stein's paradox in statistics的插图。如您所见，Stein 的估计器所做的是使每个值更接近总平均值。它使大于总平均值的值更小，而小于总平均值的值更大。收缩是指将值向平均值移动，或者在某些情况下向零移动（例如正则化回归），这会将参数向零收缩。

当然，这不仅仅是缩小自身，Stein (1956)和James and Stein (1961)已经证明，Stein 的估计量在总平方误差方面优于最大似然估计量，

E_{μ} (‖ {\hat{μ}}^{J S} - μ ‖^{2}) < E_{μ} (‖ {\hat{μ}}^{M L E} - μ ‖^{2})

$E_\mu(\| \boldsymbol{\hat\mu}^{JS} - \boldsymbol{\mu} \|^2) < E_\mu(\| \boldsymbol{\hat\mu}^{MLE} - \boldsymbol{\mu} \|^2)$

其中，是斯坦因估计量，，其中两个估计量都是在样本上估计的。证明在原始论文和您参考的论文的附录中给出。用简单的英语来说，他们所表明的是，如果您同时进行猜测，那么就总平方误差而言，与坚持最初的猜测相比，通过缩小它们会做得更好。 $\boldsymbol{\mu} = (\mu_1,\mu_2,\dots,\mu_p)'$ $\hat\mu^{JS}_i$ $\hat\mu^{MLE}_i = x_i$ $x_1,x_2,\dots,x_p$ $p > 2$

最后，Stein 估计器肯定不是唯一给出收缩效应的估计器。对于其他示例，您可以查看此博客条目，或 Gelman 等人引用的贝叶斯数据分析书。您还可以查看有关正则化回归的线程，例如收缩方法解决了什么问题？，或何时使用正则化方法进行回归？, 对于这种效果的其他实际应用。

其它你可能感兴趣的问题

上一篇如何计算纯度？下一篇为什么 lrtest() 不匹配 anova(test="LRT")