机器算法验证 - 支持向量机边际项，为什么是范数平方？ - 吾爱随笔录

对于具有软边距的 SVM，我们希望最小化以下内容：

λ | | \hat{w} | |^{2} + (1 / n) \sum m a x (0, 1 - y_{i} (\hat{w} {\hat{x}}_{i} - b))

$\lambda||\hat w||^2 +(1/n)\sum max(0,1-y_i(\hat w \hat x_i -b))$

我们知道 $2/||\hat w||$ 是边距的宽度。

第二项惩罚一个错误分类的点，因为它与边缘的距离相对于边缘的宽度。例如，假设有一个错误分类的点 $x_0$ ：

1 - y_{0} (\hat{w} {\hat{x}}_{0} - b) = 3

$1-y_0(\hat w \hat x_0 -b)=3$ 这意味着

x_{0}

$x_0$ 是

3 / | | \hat{w} | |

$3/||\hat w||$ 远离

1 - y_{i} (\hat{w} {\hat{x}}_{i} - b) = 0

$1-y_i(\hat w \hat x_i -b)=0$ 并受到处罚

3

$3$ .

第一项惩罚的是边距平方宽度的倒数。我发现很难与第二个术语调和，它们似乎具有不同的尺度。有什么理由（直观地）为什么 $||\hat w||^2$ 被使用而不是仅仅 $||\hat w||$ ?

PS：也许一个原因是 $||\hat w||^2$ 计算更容易（二次规划）？或者也许范数平方假设样本噪声是高斯的？我不知道。有没有人见过使用 $||\hat w||$ 代替 $||\hat w||^2$ ?