我正在学习逻辑回归和正则化。成本函数如下所示。
并添加了正则化项。(是正则化强度)
直觉上,我知道如果变得更大,极端权重受到惩罚,权重变得更接近于零。但是,我很难在数学上证明这一点。
这并没有说明增加的原因使权重变得更接近于零。它不直观。
我正在学习逻辑回归和正则化。成本函数如下所示。
并添加了正则化项。(是正则化强度)
直觉上,我知道如果变得更大,极端权重受到惩罚,权重变得更接近于零。但是,我很难在数学上证明这一点。
这并没有说明增加的原因使权重变得更接近于零。它不直观。
这是我的看法。
越大的,系数对应的正则化项越大,所以在最小化代价函数时,系数会减少一个更大的因子,你可以在梯度下降的更新规则推导中看到这种效果,例如:
从这个推导可以清楚地看出,在每次更新时,系数都会减少一个因子,该因子通常略小于 1,并且与, 这样变大,权重越来越小;最终,对于非常大的值,我们冒着完全欠拟合数据的风险,因为只有正则化项将保留在成本函数中,并且所有权重都将归零。
这适用于线性回归,但逻辑回归的逻辑也基本相同。
这取自Andrew Ng 在 Coursera 上的课程。可以在Bloomberg 机器学习课程材料中找到更精确(和复杂)的问题牵引力。
PS:在推导梯度下降的更新规则时,应该除以训练示例的数量,这对于选择正确的因为我们希望这个关系成反比,否则系数不会减小。