岭回归:惩罚对应于更大规模特征的权重

机器算法验证 神经网络 正常化 岭回归
2022-04-11 10:40:44

本文中,作者正在研究 dropout 训练,并试图证明它在某种程度上等同于在损失函数中添加惩罚项。

在第 5 页,在名为“线性回归”的小部分中,他得出了一个惩罚项

R(β)βTdiag(XTX)β=β12((x1(1))2++(x1(n))2)++βd2((xd(1))2++(xd(n))2)

这里是单层的权重,是设计矩阵,其行是训练样本βRdXx(1),,x(n)Rd

他将这个惩罚项描述为

...一种岭回归形式,其中设计矩阵的每一列在应用惩罚之前都进行了归一化。L2

问:这是什么意思?我理解这里归一化的一般概念是训练向量的各个条目可能具有不同的尺度,因此它们对损失的贡献可能不成比例。我猜一般的想法是,如果训练向量的第一个条目具有大尺度,而第二个具有小尺度,那么我们应该惩罚的大小而不是惩罚吗?为什么?β1β2

最重要的是,如何把大小的惩罚项对应于规范化设计矩阵?(我猜想对设计矩阵进行归一化会将除以。)((x1(1))2++(x1(n)))2βiX((xi(1))2++(xi(n)))2

1个回答

的列均值为零,则它们的方差为那么如果是 X 的缩放版本X,标准岭损失可以写成Xσ2=diag(XTX)XsXX=Xsdiag(σ)

yXsβs2+λβs2=yXsdiag(σ)1diag(σ)βs2+λdiag(σ)1diag(σ)βs2=yXβ2+λdiag(σ)β2

其中β=1diag(σ)βs

TL;DR是用于标准化矩阵的系数,您可以将它们从除以矩阵转换为乘以权重。diag(XTX)