很好地解释了为什么正则化有效

数据挖掘 逻辑回归 正则化
2021-09-20 05:27:17

我目前正在尝试了解逻辑回归的正则化,但我不确定我是否明白。我理解当特征相对过多时过度拟合的问题,并且我知道您想限制其中一些多余特征的影响,但是您在正则化中所做的正在影响所有特征。

这让我想到了下一点,即通过限制权重,你仍然可以构造相同的超平面。只要你有相同的重量比wi 为了 i{1,2,..,n}, 超平面的“角度”仍然是一样的,然后你可以简单地通过截距“调整”它的位置 w0.

许多讲师和作者使用带有附加项的复多项式示例 f(xi) 使决策边界非线性,以说明使用正则化将使该边界更加线性,因此不太容易过度拟合,但话又说回来,您可以绘制 f(xi)在一个单独的轴上,使决策边界成为一个超平面,然后你可以用更小的权重拟合完全相同的决策边界,只要比率是守恒的。

因此,如果您可以用较小的权重平方和做出完全相同的假设wi2(即正则化项较小),正则化的意义何在?或者换句话说,显然存在经验证据表明正则化有效,它是如何工作的?有没有很好的证据,或者有一些好的(而且不太模糊)的直觉?

1个回答

“同角度超平面”没有相同的成本。它与您描述的决策边界相同,但是到它的垂直距离比权重的范数更大。实际上,具有相同比率的更高权重(即没有任何正则化效果),分类器将对其所有决策更有信心。这意味着分类器将对在边界“右侧”的训练集中获得尽可能多的观察结果更加敏感。反过来,这使得它对观察中的噪声敏感。

您在正类中的估计概率是:

p(y=1|X)=11+eWTX

这包括 w0 和固定值 1 x0. 如果你取中点,决策线在哪里WTX 为零(并且输出为阈值 0.5),它定义了您的决策超平面 X 空间。

什么时候 W 具有相同的因子,但具有更大的范数 w0 补偿以产生相同的超平面,然后 X决策超平面上的值仍然给出 0.5 的阈值。然而,X远离超平面的值会更强烈地偏离。如果不是 0 你有WTX=1.0 并加倍权重保持相同的超平面,你会得到 WTX=2.0对于那个例子。这会将您的信心从 0.73 更改为 0.88。

带有示例向量的逻辑回归没有正则化的通常成本函数 Xj 和目标 yj 是:

J=jyjlog(11+eWTXj)+(1yj)(1log(11+eWTXj))

对于较大的权重值,成本对与超平面的距离更敏感。查看您的虚构项目示例(置信度为 0.73 或 0.88),当分类正确(即 y=1)时,如果权重加倍,该示例的分数将提高 0.19。当分类错误(y=0)时,分数会恶化 0.81。换句话说,对于更高的权重,在相同的权重比下,相同的错误分类受到的惩罚比正确分类的奖励要多。

训练时,权重会以最小的代价收敛到特定的平衡权重向量,而不是形成“最佳决策超平面”的特定比率。这是因为超平面不对应成本函数的单个值。

您可以演示这种效果。训练逻辑回归分类器 - 没有任何正则化以表明它与此无关。取权重向量并乘以某个因子,例如 0.5。然后从这些权重开始重新训练。你最终会得到和以前一样的重量。成本函数最小值清楚地定义了特定的权重值,而不是比率。

当您添加正则化时,这会改变成本以及权重的收敛方式。实际上,较高的正则化使分类器更喜欢对其所有预测具有较低置信度的边界,它对“几乎未命中”的惩罚较少,因为权重在可能的情况下被强制降低。当被视为超平面时,边界可能会有所不同。