为什么 L2 正则化等价于高斯先验?

机器算法验证 回归 参考 正则化
2022-01-30 23:05:40

我一直在阅读这篇文章,直觉上我可以看到这一点,但是如何从 L2 正则化到说这是分析上的高斯先验?说 L1 等价于拉普拉斯先验也是如此。

任何进一步的参考都会很棒。

4个回答

让我们假设您想从一些观察到的输入-输出对让我们假设输出通过与输入线性相关,并且数据被一些噪声破坏:β(x1,y1),(xN,yN)βϵ

yn=βxn+ϵ,

其中是均值为且方差的高斯噪声。这产生了一个高斯似然:ϵ0σ2

n=1NN(yn|βxn,σ2).

让我们通过强加高斯先验来正则化参数 ,其中是一个严格的正标量(量化我们相信多少应该接近于零,即它控制正则化的强度)。因此,结合可能性和先验,我们简单地得到:βN(β|0,λ1),λλβ

n=1NN(yn|βxn,σ2)N(β|0,λ1).

让我们取上述表达式的对数。删除一些我们得到的常量:

n=1N1σ2(ynβxn)2λβ2+const.

如果我们最大化上面的表达式关于的所谓最大后验估计,或简称MAP估计。在这个表达式中,为什么高斯先验可以解释为 L2 正则化项变得很明显。ββ


L1范数和拉普拉斯先验之间的关系可以用同样的方式来理解。代替高斯先验,将您的可能性乘以拉普拉斯先验,然后取对数。


详细介绍这两个问题的一个很好的参考资料(可能稍微高级一点)是论文“Adaptive Sparseness for Supervised Learning”,目前在网上似乎不容易找到。或者查看“使用 Jeffreys Prior 的自适应稀疏性”另一个很好的参考是“基于拉普拉斯先验的贝叶斯分类”

首先请注意,中位数最小化 L1 范数(有关 L1 和 L2 的更多信息,请参见此处此处)

median(x)=argminsi|xis|1

而均值最小化 L2

mean(x)=argminsi|xis|2

现在,回想一下正态分布的参数可以使用样本均值来估计,而拉普拉斯分布参数的MLE 估计量是中位数。所以使用正态分布等价于 L2 范数优化,使用拉普拉斯分布等价于使用 L1 优化。在实践中,您可以将其视为中位数对异常值的敏感度低于平均值,同样,使用肥尾拉普拉斯分布作为先验可以使您的模型比使用正态分布更不容易出现异常值。μμ


Hurley, WJ (2009)一种计算双指数分布 MLE 的归纳方法现代应用统计方法杂志:8(2),第 25 条。

对于具有多元正态先验和多元正态似然的线性模型,您最终会得到一个多元正态后验分布,其中后验(和最大后验模型)的平均值正是您使用 Tikhonov 正则化 (正则化)具有适当正则化参数的最小二乘。 L2

请注意,更根本的区别在于贝叶斯后验是概率分布,而 Tikhonov 正则化最小二乘解是特定点估计。

这在许多关于逆问题的贝叶斯方法的教科书中都有讨论,例如:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

类似地,如果你有一个拉普拉斯先验和一个多元正态似然,那么后验分布的最大值出现在你可以通过求解L1正则化最小二乘问题。

对于回归问题k变量(没有拦截)你做OLS

minβ(yXβ)(yXβ)

惩罚的正则化回归中,您可以Lp

minβ(yXβ)(yXβ)+λi=1k|βi|p

我们可以等效地做(注意符号的变化)

maxβ(yXβ)(yXβ)λi=1k|βi|p

这直接关系到贝叶斯原理

posteriorlikelihood×prior

或等效地(在正则条件下)

log(posterior)log(likelihood)+log(penalty)

现在不难看出哪个指数族分布对应于哪个惩罚类型。