对于具有软边距的 SVM,我们希望最小化以下内容:
我们知道是边距的宽度。
第二项惩罚一个错误分类的点,因为它与边缘的距离相对于边缘的宽度。例如,假设有一个错误分类的点:
这意味着是远离并受到处罚.
第一项惩罚的是边距平方宽度的倒数。我发现很难与第二个术语调和,它们似乎具有不同的尺度。有什么理由(直观地)为什么被使用而不是仅仅?
PS:也许一个原因是 计算更容易(二次规划)?或者也许范数平方假设样本噪声是高斯的?我不知道。有没有人见过使用代替?
对于具有软边距的 SVM,我们希望最小化以下内容:
我们知道是边距的宽度。
第二项惩罚一个错误分类的点,因为它与边缘的距离相对于边缘的宽度。例如,假设有一个错误分类的点:
第一项惩罚的是边距平方宽度的倒数。我发现很难与第二个术语调和,它们似乎具有不同的尺度。有什么理由(直观地)为什么被使用而不是仅仅?
PS:也许一个原因是 计算更容易(二次规划)?或者也许范数平方假设样本噪声是高斯的?我不知道。有没有人见过使用代替?
据我所知,为了方便起见,公式中引入了正方形。范数将在同一点达到最优,我们摆脱了丑陋的平方根。
关于铰链损失项,平方也没有区别,因为存在. 两个都和 是形式为的满射函数。这意味着对于的任何值,存在使得。
为非平方目标找到完全相同的解决方案。
由于正方形是为了方便而引入的,它没有产生任何有效的区别,我怀疑你能否找到它存在的直观原因。