数据挖掘 - 很好地解释了为什么正则化有效 - 吾爱随笔录

很好地解释了为什么正则化有效

数据挖掘逻辑回归正则化

2021-09-20 05:27:17

我目前正在尝试了解逻辑回归的正则化，但我不确定我是否明白。我理解当特征相对过多时过度拟合的问题，并且我知道您想限制其中一些多余特征的影响，但是您在正则化中所做的正在影响所有特征。

这让我想到了下一点，即通过限制权重，你仍然可以构造相同的超平面。只要你有相同的重量比 $w_i$ 为了 $i \in \{1,2,..,n\}$ , 超平面的“角度”仍然是一样的，然后你可以简单地通过截距“调整”它的位置 $w_0$ .

许多讲师和作者使用带有附加项的复多项式示例 $f(x_i)$ 使决策边界非线性，以说明使用正则化将使该边界更加线性，因此不太容易过度拟合，但话又说回来，您可以绘制 $f(x_i)$ 在一个单独的轴上，使决策边界成为一个超平面，然后你可以用更小的权重拟合完全相同的决策边界，只要比率是守恒的。

因此，如果您可以用较小的权重平方和做出完全相同的假设 $\sum w_i^2$ （即正则化项较小），正则化的意义何在？或者换句话说，显然存在经验证据表明正则化有效，它是如何工作的？有没有很好的证据，或者有一些好的（而且不太模糊）的直觉？

1个回答

“同角度超平面”没有相同的成本。它与您描述的决策边界相同，但是到它的垂直距离比权重的范数更大。实际上，具有相同比率的更高权重（即没有任何正则化效果），分类器将对其所有决策更有信心。这意味着分类器将对在边界“右侧”的训练集中获得尽可能多的观察结果更加敏感。反过来，这使得它对观察中的噪声敏感。

您在正类中的估计概率是：

p (y = 1 | X) = \frac{1}{1 + e^{- W^{T} X}}

$p(y=1|X) = \frac{1}{1+e^{-W^TX}}$

这包括 $w_0$ 和固定值 1 $x_0$ . 如果你取中点，决策线在哪里 $W^TX$ 为零（并且输出为阈值 0.5），它定义了您的决策超平面 $X$ 空间。

什么时候 $W$ 具有相同的因子，但具有更大的范数 $w_0$ 补偿以产生相同的超平面，然后 $X$ 决策超平面上的值仍然给出 0.5 的阈值。然而， $X$ 远离超平面的值会更强烈地偏离。如果不是 0 你有 $W^TX=1.0$ 并加倍权重保持相同的超平面，你会得到 $W^TX=2.0$ 对于那个例子。这会将您的信心从 0.73 更改为 0.88。

带有示例向量的逻辑回归没有正则化的通常成本函数 $X_j$ 和目标 $y_j$ 是：

J = - \sum_{\forall j} y_{j} l o g (\frac{1}{1 + e^{- W^{T} X_{j}}}) + (1 - y_{j}) (1 - l o g (\frac{1}{1 + e^{- W^{T} X_{j}}}))

$J = - \sum_{\forall j} y_jlog(\frac{1}{1+e^{-W^TX_j}}) + (1 -y_j)(1 - log(\frac{1}{1+e^{-W^TX_j}}))$

对于较大的权重值，成本对与超平面的距离更敏感。查看您的虚构项目示例（置信度为 0.73 或 0.88），当分类正确（即 y=1）时，如果权重加倍，该示例的分数将提高 0.19。当分类错误（y=0）时，分数会恶化 0.81。换句话说，对于更高的权重，在相同的权重比下，相同的错误分类受到的惩罚比正确分类的奖励要多。

训练时，权重会以最小的代价收敛到特定的平衡权重向量，而不是形成“最佳决策超平面”的特定比率。这是因为超平面不对应成本函数的单个值。

您可以演示这种效果。训练逻辑回归分类器 - 没有任何正则化以表明它与此无关。取权重向量并乘以某个因子，例如 0.5。然后从这些权重开始重新训练。你最终会得到和以前一样的重量。成本函数最小值清楚地定义了特定的权重值，而不是比率。

当您添加正则化时，这会改变成本以及权重的收敛方式。实际上，较高的正则化使分类器更喜欢对其所有预测具有较低置信度的边界，它对“几乎未命中”的惩罚较少，因为权重在可能的情况下被强制降低。当被视为超平面时，边界可能会有所不同。

其它你可能感兴趣的问题

上一篇k-means 聚类具有大量无意义值的数据下一篇有限状态机可以编码为神经网络的输入/输出吗？