正则化和均值估计

机器算法验证 贝叶斯 估计 意思是
2022-04-09 03:12:31

假设我有一些 iid 数据,其中是固定的,是未知的,我想估计x1,,xnN(μ,σ2)σ2μμ

与其简单地给出的 MLE ,人们可以估计μ=x¯

(1)μ=λμ0+(1λ)x¯,

对于一些“先前的最佳猜测”这也有一个很好的贝叶斯解释:我们在 \mu 上放置一个先验的\,而是加权精度。μ0μN(μ0,σ02)μλ

我似乎记得这也有一个明确的 L2 正则化解释(即,我们选择一些惩罚并最小化平方损失以获得上述估计),类似于套索和岭回归之类的东西,但我不记得它是如何去。谁能解释(1)的L2正则化解释是什么?

[更一般的答案,数据不一定是正态分布的,也是受欢迎的。]

2个回答

当然,它等价于以下类似岭的优化问题:

minμR|μ0,λ0||xiμμ0||2+λμ2

对于进入 OLS 解决方案(即),对于,它缩小到λ=0μ+μ0x¯λ=μ0

岭回归 (Hoerl and Kennard, 1988) 最初是为了在反转时克服奇点(通过将添加到其对角线元素)。因此,这种情况下的正则化包括使用 vc 矩阵通过优化偏差和方差(收缩)之间的折衷,这种 L2 惩罚导致比通常的 OLS“更好”的预测,但它会因考虑模型中的所有系数而受到影响。回归系数被发现为XtXλ(XtXλI)1

β^=argminβYXβ2+λβ2

(L2-norm)。||β||2=j=1pβj2

从贝叶斯的角度来看,您可以认为必须很小并将它们插入到先验分布中。因此,似然可以由的先验概率加权(假设 iid 的均值和方差为零),而后验概率为发现是β(y,X,β^,σ2)β^τ2

f(β|y,X,σ2,τ2)=(yβ^tX)t(yβ^tX)+σ2τ2β^tβ^

其中是您的的方差。之后,此密度与 Ridge 框架中要最小化的残差平方和相反σ2yλ=σ2/τ2

的贝叶斯估计量与 OLS 估计量相同更多细节可以在Hastie、Tibshirani 和 Friedman的The Elements of Statistical Learning中找到(第 1 版第 3.4.3 节,第 60 页)。第二也免费提供。β^τ2