机器算法验证 - SVM 优化的约束与无约束公式 - 吾爱随笔录

SVM 优化的约束与无约束公式

机器算法验证优化支持向量机

2022-03-24 23:59:57

让我们采用两种形式的 SVM 优化问题，一种是受约束的： $\ell_{2}$

$\min_{\alpha,b} ||w||_2^2 + C \sum_{i=1}^n {\xi_{i}^2}$

st $y_i(w^T x_i +b) \geq 1 - \xi_i$
和 $\xi_i \geq 0 \forall i$

和一个不受约束的：

$\min_{\alpha,b} ||w||_2^2 + C \sum_{i=1}^n \max(0,1 - y_i (w^T x_i + b))^2$

这两种优化问题的表述有什么区别？这个比那个好吗？

希望我没有在方程式中犯任何错误。谢谢。

更新：我从Olivier Chapelle 的作品中提取了不受约束的公式。似乎人们在想要处理原始问题时使用无约束优化问题，而当他们想要处理对偶问题时，我想知道为什么？

2个回答

在我看来，在第一个问题的解决方案中，不等式约束变为等式，即 $1 - \xi_i = y_i(w^Tx_i + b)$ ，因为我们正在最小化 $\xi_i$ 和满足约束发生在相等处。因此，作为 $\xi_i \geq 0$ ， $\xi_i = max(0, 1 - y_i(w^Tx_i+b))$ ，它的替代给出了与你的第二个公式非常相似的东西。

检查了Chapelle 的论文后，看起来第二个公式在最大运算的后半部分缺少“1 -”（请参见公式 2.8 之后的 L(.,.) 的定义）。在那种情况下，两个公式是相同的，它们都是原始优化问题的等效表示（对偶公式是根据拉格朗日乘数）。因此，优点和缺点纯粹是计算的。 $\alpha_i$

请参阅https://davidrosenberg.github.io/mlcourse/Notes/svm-lecture-prep.pdf的第一页以获得更正式的答案。aka，这两个问题是“等价的”，因为第一个问题的最小值和最小值是第二个问题的最小值，反之亦然。

将文档中的替换将回答您的问题。 $g(x)$ $1-y_i(w^T x_i +b)$

双向证明：

文档中的第二个问题 -> 文档中的第一个问题

假设我们有作为文档中第二个问题的最小化器。那么（因为否则目标函数可以通过将设置得更小来获得更小的值）。由于是最小化器，我们有“ ”。通过将设置为特殊情况，我们有“ ”，表明它也是第一个问题的最小值。QED。 $(x^\star, \xi^\star)$ $\xi^\star=g(x^\star)$ $\xi$ $\forall x, \forall \xi, f(x)+\xi \ge f(x^\star)+g(x^\star)$ $\xi=g(x)$ $\forall x, f(x)+g(x) \ge f(x^\star)+g(x^\star)$

第一个问题 -> 第二个问题

假设我们有作为文档中第一个问题的最小化器。 $x^\star$

因此最小化“ ”。 $x^\star$ $f(x)+\xi, s.t. \xi=g(x)$

因此最小化“ ”（因为当这个问题达到最小值时，必须等于；这意味着它退化为以上问题）。这个问题正是文档中的第二个问题。QED。 $x^\star$ $f(x)+\xi, s.t. \xi \ge g(x)$ $\xi$ $g(x)$

其它你可能感兴趣的问题

上一篇何时使用等频直方图下一篇比较不同变量的总体成员的排名顺序