教科书中的线性支持向量机采取最大化的形式
超过在哪里和
自从,分类器将采用以下形式.
因此,它似乎解决了线性 SVM,我需要弄清楚使用一些基于梯度的方法。但是,最近,我遇到了一篇论文,其中指出他们试图最小化以下形式:
他们声称是一个常数。在我看来,这种形式与原始形式完全不同在线性 SVM 中,因为缺少. 就论文而言,在我看来,他们优化了直接地。我在这里很困惑,好像我错过了什么。可以优化吗直接在线性SVM上?为什么会这样?
教科书中的线性支持向量机采取最大化的形式
超过在哪里和
自从,分类器将采用以下形式.
因此,它似乎解决了线性 SVM,我需要弄清楚使用一些基于梯度的方法。但是,最近,我遇到了一篇论文,其中指出他们试图最小化以下形式:
他们声称是一个常数。在我看来,这种形式与原始形式完全不同在线性 SVM 中,因为缺少. 就论文而言,在我看来,他们优化了直接地。我在这里很困惑,好像我错过了什么。可以优化吗直接在线性SVM上?为什么会这样?
这里有两件事。
原始问题和对偶问题之间的区别。SVM 的“原始”目标函数是最小化. 这被称为“原始形式”。原来你写的目标函数(涉及) 是这个问题的对偶形式。因此,两者导致等效的解决方案,并且可以互换使用。
您描述的第二个公式称为“软边距 SVM”。它是通过采用上面(1)的原始形式并替换约束来获得的按刑期. 效果是您允许违反约束。这很有用,例如,如果您的数据不是线性可分的。您可以获得这个的双重公式(类似于您的表达) 也是如此。