机器算法验证 - 正则化和均值估计 - 吾爱随笔录

正则化和均值估计

机器算法验证贝叶斯估计意思是

2022-04-09 03:12:31

假设我有一些 iid 数据，其中是固定的，是未知的，我想估计。 $x_1, \ldots, x_n \sim N(\mu, \sigma^2)$ $\sigma^2$ $\mu$ $\mu$

与其简单地给出的 MLE ，人们可以估计 $\mu = \bar{x}$

(1) $\mu = \lambda \mu_0 + (1 - \lambda) \bar{x},$

对于一些“先前的最佳猜测”。这也有一个很好的贝叶斯解释：我们在 \mu 上放置一个先验的\，而是加权精度。 $\mu_0$ $\mu \sim N(\mu_0, \sigma^2_0)$ $\mu$ $\lambda$

我似乎记得这也有一个明确的 L2 正则化解释（即，我们选择一些惩罚并最小化平方损失以获得上述估计），类似于套索和岭回归之类的东西，但我不记得它是如何去。谁能解释（1）的L2正则化解释是什么？

[更一般的答案，数据不一定是正态分布的，也是受欢迎的。]

2个回答

当然，它等价于以下类似岭的优化问题：

$\underset{\mu\in\mathbb{R}|\mu_0,\lambda\geq0}{\min} ||x_i-\mu-\mu_0||_2+\lambda\mu^2$

对于，进入 OLS 解决方案（即），对于，它缩小到。 $\lambda=0$ $\mu+\mu_0$ $\bar{x}$ $\lambda=\infty$ $\mu_0$

岭回归 (Hoerl and Kennard, 1988) 最初是为了在反转时克服奇点（通过将添加到其对角线元素）。因此，这种情况下的正则化包括使用 vc 矩阵。通过优化偏差和方差（收缩）之间的折衷，这种 L2 惩罚导致比通常的 OLS“更好”的预测，但它会因考虑模型中的所有系数而受到影响。回归系数被发现为 $X^tX$ $\lambda$ $(X^tX-\lambda I)^{-1}$

\hat{β} = \underset{β}{argmin} ‖ Y - X β ‖^{2} + λ ‖ β ‖^{2}

$\hat\beta=\underset{\beta}{\operatorname{argmin}}\|Y-X\beta\|^2 + \lambda\|\beta\|^2$

与 (L2-norm)。 $\vert\vert\beta\vert\vert^2 = \sum_{j=1}^p\beta_j^2$

从贝叶斯的角度来看，您可以认为必须很小并将它们插入到先验分布中。因此，似然可以由的先验概率加权（假设 iid 的均值和方差为零），而后验概率为发现是 $\beta$ $\ell (y,X,\hat\beta,\sigma^2)$ $\hat\beta$ $\tau^2$

f (β | y, X, σ^{2}, τ^{2}) = (y - {\hat{β}}^{t} X)^{t} (y - {\hat{β}}^{t} X) + \frac{σ^{2}}{τ^{2}} {\hat{β}}^{t} \hat{β}

$f(\beta|y,X,\sigma^2,\tau^2)=(y-\hat\beta^tX)^t(y-\hat\beta^tX)+\frac{\sigma^2}{\tau^2}\hat\beta^t\hat\beta$

其中是您的的方差。之后，此密度与 Ridge 框架中要最小化的残差平方和相反。 $\sigma^2$ $y$ $\lambda=\sigma^2/\tau^2$

的贝叶斯估计量与 OLS 估计量相同。更多细节可以在Hastie、Tibshirani 和 Friedman的The Elements of Statistical Learning中找到（第 1 版第 3.4.3 节，第 60 页）。第二版也免费提供。 $\hat\beta$ $\tau^2$

其它你可能感兴趣的问题

上一篇寻找 VECM + 外生变量的系数下一篇可视化活动频率