机器算法验证 - 为什么要以相同的方式规范所有参数？ - 吾爱随笔录

为什么要以相同的方式规范所有参数？

机器算法验证回归机器学习正则化过拟合

2022-03-19 02:27:56

我的问题与线性回归和逻辑回归中的正则化有关。我目前正在学习 Andrew Ng在 Coursera 上的机器学习课程的第 3 周。我了解过度拟合如何成为一个常见问题，并且我对正则化如何减少过度拟合有一些直觉。我的问题是我们可以通过以不同方式规范不同参数来改进我们的模型吗？

例子：

假设我们正在尝试适应 $w_0 + w_1 x_1 + w_2 x_2 + w_3 x_3 + w_4 x_4$ . 这个问题是关于为什么我们惩罚高 $w_1$ 以同样的方式惩罚高的价值 $w_2$ 价值观。

如果我们对我们的功能一无所知 $(x_1,x_2,x_3,x_4)$ 被构造出来，当我们做正则化时，以同样的方式对待它们是有意义的：高 $w_1$ 价值应该产生与高一样多的“惩罚” $w_3$ 价值。

但是假设我们有额外的信息：假设我们最初只有 2 个特性： $x_1$ 和 $x_2$ . 一条线不适合我们的训练集，我们想要一个更弯曲的决策边界，所以我们构建了 $x_3 = x_1^2$ 和 $x_4 = x_2^3$ . 现在我们可以拥有更复杂的模型，但它们越复杂，我们就越有可能将模型过度拟合到训练数据中。因此，我们希望在最小化成本函数和最小化模型复杂性之间取得平衡。那么，代表更高指数的参数（ $x_3$ , $x_4$ ) 极大地增加了我们模型的复杂性。所以我们不应该因为高 $w_3$ , $w_4$ 价值比我们惩罚高 $w_1,w_2$ 价值观？

2个回答

好吧，代表更高指数的参数 (x3,x4) 极大地增加了我们模型的复杂性。那么我们不应该对高 w3,w4 值的惩罚比对高 w1,w2 值的惩罚更多吗？

我们说添加二次项或三次项会增加模型复杂性的原因是它会导致模型总体上具有更多参数。我们不期望二次项本身比线性项更复杂。有一点很清楚，在所有其他条件相同的情况下，具有更多协变量的模型会更复杂。

出于正则化的目的，通常会重新调整所有协变量以具有相等的均值和方差，以便先验地将它们视为同等重要。如果某些协变量实际上与因变量的关系比其他协变量强，那么，当然，正则化过程不会强烈惩罚这些协变量，因为它们将对模型拟合做出更大的贡献。

但是，如果您确实先验地认为一个协变量比另一个更重要，并且您可以量化这种信念，并且您希望模型反映它呢？那么您可能想要做的是使用贝叶斯模型并调整系数的先验以匹配您先前存在的信念。并非巧合的是，一些熟悉的正则化过程可以解释为贝叶斯模型的特殊情况。特别是，岭回归等价于系数的正态先验，而套索回归等价于拉普拉斯先验。

伟大的观察。回答您的问题“我们应该惩罚‘更多’吗？” 那么，我们是否从对某些变量施加先验惩罚中获得任何好处？

在实践中我们会做相反的事情，记住将输入变量重新缩放到相同的大小。不同的量级对某些变量赋予不同的先验“重要性”。我们不知道哪些重要，哪些不重要。关于寻找正确的“特征”或特征选择/表示学习，有一整套研究。

所以，这里有两种思考方式。

可以从一个简单的线性基础假设开始，没有正则化。然后对模型有不同的假设，取输入空间的二次和其他交互。当然。然后加上正则化等等。所以这个“搜索”从简单到复杂。更多的是一种参数化的方法，因为你产生了关于基础的假设。

或者，另一种“非参数”方法是从一个非常复杂的假设开始，让正则化通过交叉验证完成工作（例如，惩罚复杂性并得到更简单的东西）。

正则化和非参数化的重点是自动做事。让机器完成工作。

这是关于基本函数的一个很好的资源。

最后， $L^p$ 空间和规范将使事情变得更加清晰。

其它你可能感兴趣的问题

上一篇我们应该总是做简历吗？下一篇在距离矩阵上执行 k-means 是否与在数据矩阵（文本挖掘数据）上一样有效？