我目前正在这里学习 Andrew Ng 的斯坦福讲义(我在第 8 部分)。现在从我之前收集的信息来看,我们的目标一直是最小化||w||^2,以便我们可以最大化利润。然而,现在他在写关于正则化的文章时,他说:
参数 C 控制两个目标之间的相对权重,即使 ||w||^2 变大(我们之前看到使边距变小)和确保大多数示例的功能边距至少为 1。
为什么缩小利润会成为当前的“目标”?
我目前正在这里学习 Andrew Ng 的斯坦福讲义(我在第 8 部分)。现在从我之前收集的信息来看,我们的目标一直是最小化||w||^2,以便我们可以最大化利润。然而,现在他在写关于正则化的文章时,他说:
参数 C 控制两个目标之间的相对权重,即使 ||w||^2 变大(我们之前看到使边距变小)和确保大多数示例的功能边距至少为 1。
为什么缩小利润会成为当前的“目标”?
您正在最小化整个损失方程。如果它包含正则化,则您也强制权重很小。具有较小的权重是有利的特性,因为该算法不会强烈关注一个特征,所有这些都恰好是重要的,因此对某些特征过度拟合的风险较小。
因此,这确实是一些折衷,在较大的利润但很少关注数据集不同的示例之间。
不,缩小利润通常不是目标。在链接注释的上下文中,如果我们知道没有异常值,这是一个目标。这样,边距可能会变小,因为我们要求所有的点都应该有一定的功能边距。
在注释的那部分之前,作者假设数据是线性可分的并且没有异常值。在这种情况下,确实我们想要的只是最小化 为了找到能够正确分离所有数据的超平面。
但是,异常值的出现会导致超平面的边距低于所需的边距。这就是作者所说的:
[...] 制作 大(我们之前看到的使边距变小)[...]
一个直观的方法是查看注释部分中给出的图:
在那里我们可以看到,为了分离所有的点,边距被严重减少了。如果那个点不是异常值,这就是我们想要的。我们想减少我们的利润以分离所有的点。但是知道该点是异常值,我们想要的是忽略异常值并为其余点留出更大的边距。
异常值导致更大因为它们使特征具有比期望的更大的影响(在该图片中,y轴特征的影响显着增长,即SVM没有学习数据的整体行为,它正在学习特定点/噪声数据)。
这就是成本函数(用术语) 考虑到。如果我们使 更大,那么我们将更多地惩罚这些点没有功能边距的事实 . 为了尝试正确分离所有数据,这将导致低边距,所以 成长不那么重要。
另一方面,如果我们使 更小,那么我们最关心的就是减少 . 这样,我们对功能边距小于的点的重视程度较低 异常值的存在影响较小。