最近我正在研究不同的 SVM 优化算法。我遇到了一个奇怪的场景:
当我们制定如下的 SVM 原始问题时,
由于线性约束,我们在对偶公式中会有以下约束:
这意味着我们需要一次至少优化两个变量。
但是有些论文会在无约束版本中制定 SVM 问题,简单地说:
然后因为我们不再有线性约束,我们可以应用坐标下降等方法,一次只更新一个变量。
我很困惑,这两种 SVM 公式有什么区别?
最近我正在研究不同的 SVM 优化算法。我遇到了一个奇怪的场景:
当我们制定如下的 SVM 原始问题时,
但是有些论文会在无约束版本中制定 SVM 问题,简单地说:
我很困惑,这两种 SVM 公式有什么区别?
请注意,通常,您编写的损失(w,x_i,y_i)项实际上是约束中的c_i值,在两个版本中。
双重公式约束来自偏置项,它使解平面偏离原点。使用偏置项的最常见替代方法是通过添加具有恒定值1的维度来扩展所有输入x_i。一种不太常用的方法是使用稍微修改的核函数公式来复制b(即,使用修改后的核k'计算<w,x>_{k'}类似于评估<w,x>_k + b与原始内核)。
从实际的角度来看,有偏和无偏 SVM 的分类器性能差别不大。具体算法当然不同,学习分类器所需的时间也可能不同。从理论的角度来看,确定无偏版本的界限通常更容易。