L2 正则化如何使权重更小?

人工智能 机器学习 证明 超参数 正则化 l2-正则化
2021-11-16 12:35:12

我正在学习逻辑回归和L2正则化。成本函数如下所示。

J(w)=i=1n(y(i)log(ϕ(z(i))+(1y(i))log(1ϕ(z(i))))

并添加了正则化项。(λ是正则化强度)

J(w)=i=1n(y(i)log(ϕ(z(i))+(1y(i))log(1ϕ(z(i))))+λ2w

直觉上,我知道如果λ变得更大,极端权重受到惩罚,权重变得更接近于零。但是,我很难在数学上证明这一点。

Δw=ηJ(w)
wjJ(w)=(y+ϕ(z))xj+λwj
Δw=η(i=1n(y(i)ϕ(z(i)))x(i)λwj)

这并没有说明增加的原因λ使权重变得更接近于零。它不直观。

1个回答

这是我的看法。

越大的λ,系数对应的正则化项越大,所以在最小化代价函数时,系数会减少一个更大的因子,你可以在梯度下降的更新规则推导中看到这种效果,例如:

θj:=θjα [(1m i=1m(hθ(x(i))y(i))xj(i))+λmθj]          j{1,2...n}

θj:=θj(1αλm)(αm i=1m(hθ(x(i))y(i))xj(i))          j{1,2...n}

从这个推导可以清楚地看出,在每次更新时,系数都会减少一个因子,该因子通常略小于 1,并且λ, 这样λ变大,权重越来越小;最终,对于非常大的值λ,我们冒着完全欠拟合数据的风险,因为只有正则化项将保留在成本函数中,并且所有权重都将归零。

这适用于线性回归,但逻辑回归的逻辑也基本相同。

这取自Andrew Ng 在 Coursera 上的课程可以在Bloomberg 机器学习课程材料中找到更精确(和复杂)的问题牵引力。

PS:在推导梯度下降的更新规则时,λ应该除以训练示例的数量,这对于选择正确的λ因为我们希望这个关系成反比,否则系数不会减小。