机器算法验证 - 岭回归：惩罚对应于更大规模特征的权重 - 吾爱随笔录

在本文中，作者正在研究 dropout 训练，并试图证明它在某种程度上等同于在损失函数中添加惩罚项。

在第 5 页，在名为“线性回归”的小部分中，他得出了一个惩罚项

R (β) \propto β^{T} diag (X^{T} X) β = β_{1}^{2} ({(x_{1}^{(1)})}^{2} + \dots + {(x_{1}^{(n)})}^{2}) + \dots + β_{d}^{2} ({(x_{d}^{(1)})}^{2} + \dots + {(x_{d}^{(n)})}^{2})

$\newcommand{\bbeta}{\boldsymbol{\beta}} R(\bbeta) \propto \bbeta^T \operatorname{diag}(X^TX)\bbeta = \beta_1^2 \left( \left(x^{(1)}_{1}\right)^2 + \dotsb + \left(x^{(n)}_{1}\right)^2 \right) + \dotsb + \beta_d^2\left( \left(x^{(1)}_{d}\right)^2 + \dotsb + \left(x^{(n)}_{d}\right)^2 \right)$

这里是单层的权重，是设计矩阵，其行是训练样本。 $\boldsymbol{\beta} \in \mathbb{R}^d$ $X$ $\mathbf{x}^{(1)}, \dotsc, \mathbf{x}^{(n)} \in \mathbb{R}^d$

他将这个惩罚项描述为

...一种岭回归形式，其中设计矩阵的每一列在应用惩罚之前都进行了归一化。 $L^2$

问：这是什么意思？我理解这里归一化的一般概念是训练向量的各个条目可能具有不同的尺度，因此它们对损失的贡献可能不成比例。我猜一般的想法是，如果训练向量的第一个条目具有大尺度，而第二个具有小尺度，那么我们应该惩罚的大小而不是惩罚吗？为什么？ $\beta_1$ $\beta_2$

最重要的是，如何把大小的惩罚项对应于规范化设计矩阵？（我猜想对设计矩阵进行归一化会将列除以。） $\left( \left(x^{(1)}_{1}\right)^2 + \dotsb + \left(x^{(n)}_{1}\right)\right)^2$ $\boldsymbol{\beta}$ $i$ $X$ $\sqrt{\left( \left(x^{(1)}_{i}\right)^2 + \dotsb + \left(x^{(n)}_{i}\right)\right)^2}$