让我们采用两种形式的 SVM 优化问题,一种是受约束的:
st
和
和一个不受约束的:
这两种优化问题的表述有什么区别?这个比那个好吗?
希望我没有在方程式中犯任何错误。谢谢。
更新:我从Olivier Chapelle 的作品中提取了不受约束的公式。似乎人们在想要处理原始问题时使用无约束优化问题,而当他们想要处理对偶问题时,我想知道为什么?
让我们采用两种形式的 SVM 优化问题,一种是受约束的:
st
和
和一个不受约束的:
这两种优化问题的表述有什么区别?这个比那个好吗?
希望我没有在方程式中犯任何错误。谢谢。
更新:我从Olivier Chapelle 的作品中提取了不受约束的公式。似乎人们在想要处理原始问题时使用无约束优化问题,而当他们想要处理对偶问题时,我想知道为什么?
在我看来,在第一个问题的解决方案中,不等式约束变为等式,即,因为我们正在最小化和满足约束发生在相等处。因此,作为,,它的替代给出了与你的第二个公式非常相似的东西。
检查了Chapelle 的论文后,看起来第二个公式在最大运算的后半部分缺少“1 -”(请参见公式 2.8 之后的 L(.,.) 的定义)。在那种情况下,两个公式是相同的,它们都是原始优化问题的等效表示(对偶公式是根据拉格朗日乘数)。因此,优点和缺点纯粹是计算的。
请参阅https://davidrosenberg.github.io/mlcourse/Notes/svm-lecture-prep.pdf的第一页以获得更正式的答案。aka,这两个问题是“等价的”,因为第一个问题的最小值和最小值是第二个问题的最小值,反之亦然。
将文档中的替换将回答您的问题。
双向证明:
假设我们有作为文档中第二个问题的最小化器。那么(因为否则目标函数可以通过将设置得更小来获得更小的值)。由于是最小化器,我们有“ ”。通过将设置为特殊情况,我们有“ ”,表明它也是第一个问题的最小值。QED。
假设我们有作为文档中第一个问题的最小化器。
因此最小化“ ”。
因此最小化“ ”(因为当这个问题达到最小值时,必须等于;这意味着它退化为以上问题)。这个问题正是文档中的第二个问题。QED。