“同角度超平面”没有相同的成本。它与您描述的决策边界相同,但是到它的垂直距离比权重的范数更大。实际上,具有相同比率的更高权重(即没有任何正则化效果),分类器将对其所有决策更有信心。这意味着分类器将对在边界“右侧”的训练集中获得尽可能多的观察结果更加敏感。反过来,这使得它对观察中的噪声敏感。
您在正类中的估计概率是:
p ( y= 1 | X) =11+ _e-W吨X
这包括 w0 和固定值 1 X0. 如果你取中点,决策线在哪里W吨X 为零(并且输出为阈值 0.5),它定义了您的决策超平面 X 空间。
什么时候 W 具有相同的因子,但具有更大的范数 w0 补偿以产生相同的超平面,然后 X决策超平面上的值仍然给出 0.5 的阈值。然而,X远离超平面的值会更强烈地偏离。如果不是 0 你有W吨X= 1.0 并加倍权重保持相同的超平面,你会得到 W吨X= 2.0对于那个例子。这会将您的信心从 0.73 更改为 0.88。
带有示例向量的逻辑回归没有正则化的通常成本函数 Xj 和目标 是的j 是:
Ĵ= -∑∀ j是的j呸呸呸_ _(11+ _e-W吨Xj) + ( 1 -是的j) ( 1 - l o g(11+ _e-W吨Xj) )
对于较大的权重值,成本对与超平面的距离更敏感。查看您的虚构项目示例(置信度为 0.73 或 0.88),当分类正确(即 y=1)时,如果权重加倍,该示例的分数将提高 0.19。当分类错误(y=0)时,分数会恶化 0.81。换句话说,对于更高的权重,在相同的权重比下,相同的错误分类受到的惩罚比正确分类的奖励要多。
训练时,权重会以最小的代价收敛到特定的平衡权重向量,而不是形成“最佳决策超平面”的特定比率。这是因为超平面不对应成本函数的单个值。
您可以演示这种效果。训练逻辑回归分类器 - 没有任何正则化以表明它与此无关。取权重向量并乘以某个因子,例如 0.5。然后从这些权重开始重新训练。你最终会得到和以前一样的重量。成本函数最小值清楚地定义了特定的权重值,而不是比率。
当您添加正则化时,这会改变成本以及权重的收敛方式。实际上,较高的正则化使分类器更喜欢对其所有预测具有较低置信度的边界,它对“几乎未命中”的惩罚较少,因为权重在可能的情况下被强制降低。当被视为超平面时,边界可能会有所不同。