数据挖掘 - 了解正则化 - 吾爱随笔录

了解正则化

数据挖掘逻辑回归正则化

2021-10-01 14:11:27

我目前正在尝试了解逻辑回归的正则化。

到目前为止，我不太确定我是否真的明白了。基本上，问题是当我们向模型添加额外的特征时，我们可能会过度拟合训练集。这导致了一种算法与训练集完美匹配，但对于未来的值却失败了（因为它与过去的值完全匹配）。

所以，这就是我们引入正则化的原因。有了这个，我们减少了特征的影响，所以模型可能会产生一个算法，它在训练集上做得（看起来）更差，但总体上效果更好。

这个对吗？

2个回答

这是正确的。如果没有正则化，您的模型将适合数据集中存在的不相关噪声。这意味着训练集将更适合，但整体预测能力会降低。这是一篇关于过拟合和正则化的好文章。

您还可以通过观看这些图像获得一些直觉：没有正则化使用正则化您可以清楚地看到第一张图像的形状在左上角的预测存在问题，但它完全适合训练点。

对，那是正确的。

例如，考虑一个多项式 $a_n x^n + a_{n-1} x^{n-1} + \dots + a_2 x^2 + a_1 x^1 + a_0 x^0$ 应该适合 100 个数据点 $(x_, y_i)$ 哪里都有 $y_i$ 由一个带有一些噪声的多项式生成。当然，您总是可以将模型完美地拟合到产生 MSE 错误的数据

M S E = \sum_{(x_{i}, y_{i})} (y_{i} - {predict}_{Model} (x_{i}))^{2}

$MSE = \sum_{(x_i, y_i)} (y_i - \text{predict}_{\text{Model}}(x_i))^2$

为 0。但考虑到存在噪音，您实际上可能更喜欢“更简单”的模型。考虑简单性的一种方法是使用权重 $a_i$ 哪个更小。这是通过向误差添加正则化项来完成的。一种常见的正则化是 $L_1$ 正则化 ( $+ \sum_{1}^{100} | a_i |$ )，另一个是 $L_2$ 正则化 ( $+ \sum_{1}^{100} a_i^2$ ）。

其它你可能感兴趣的问题

上一篇聚类中距离计算有哪些方法？我们什么时候应该使用它们？下一篇使用包 tm 的 R 错误（文本挖掘）