假设我有一些 iid 数据,其中是固定的,是未知的,我想估计。
与其简单地给出的 MLE ,人们可以估计
(1)
对于一些“先前的最佳猜测”。这也有一个很好的贝叶斯解释:我们在 \mu 上放置一个先验的\,而是加权精度。
我似乎记得这也有一个明确的 L2 正则化解释(即,我们选择一些惩罚并最小化平方损失以获得上述估计),类似于套索和岭回归之类的东西,但我不记得它是如何去。谁能解释(1)的L2正则化解释是什么?
[更一般的答案,数据不一定是正态分布的,也是受欢迎的。]
假设我有一些 iid 数据,其中是固定的,是未知的,我想估计。
与其简单地给出的 MLE ,人们可以估计
(1)
对于一些“先前的最佳猜测”。这也有一个很好的贝叶斯解释:我们在 \mu 上放置一个先验的\,而是加权精度。
我似乎记得这也有一个明确的 L2 正则化解释(即,我们选择一些惩罚并最小化平方损失以获得上述估计),类似于套索和岭回归之类的东西,但我不记得它是如何去。谁能解释(1)的L2正则化解释是什么?
[更一般的答案,数据不一定是正态分布的,也是受欢迎的。]
当然,它等价于以下类似岭的优化问题:
对于,进入 OLS 解决方案(即),对于,它缩小到。
岭回归 (Hoerl and Kennard, 1988) 最初是为了在反转时克服奇点(通过将添加到其对角线元素)。因此,这种情况下的正则化包括使用 vc 矩阵。通过优化偏差和方差(收缩)之间的折衷,这种 L2 惩罚导致比通常的 OLS“更好”的预测,但它会因考虑模型中的所有系数而受到影响。回归系数被发现为
与 (L2-norm)。
从贝叶斯的角度来看,您可以认为必须很小并将它们插入到先验分布中。因此,似然可以由的先验概率加权(假设 iid 的均值和方差为零),而后验概率为发现是
其中是您的的方差。之后,此密度与 Ridge 框架中要最小化的残差平方和相反。
的贝叶斯估计量与 OLS 估计量相同。更多细节可以在Hastie、Tibshirani 和 Friedman的The Elements of Statistical Learning中找到(第 1 版第 3.4.3 节,第 60 页)。第二版也免费提供。