支持向量机的所有例子都与分类有关。我不明白如何在回归中使用用于回归的 SVM(支持向量回归器)。
据我了解,SVM 最大化两个类之间的边距以找到最佳超平面。这在回归问题中可能如何工作?
支持向量机的所有例子都与分类有关。我不明白如何在回归中使用用于回归的 SVM(支持向量回归器)。
据我了解,SVM 最大化两个类之间的边距以找到最佳超平面。这在回归问题中可能如何工作?
简而言之:最大化边距可以更普遍地视为通过最小化来规范解决方案(本质上是最小化模型复杂性)这在分类和回归中都完成。但是在分类的情况下,最小化是在所有示例都被正确分类的条件下完成的,而在回归的情况下,值所有示例中的偏差小于要求的准确度从为回归。
为了了解您如何从分类到回归,有助于了解两种情况如何应用相同的 SVM 理论将问题表述为凸优化问题。我会尝试将两者并排放置。
(我将忽略允许错误分类和超出准确度的偏差的松弛变量)
在这种情况下,目标是找到一个函数在哪里对于积极的例子和对于负面的例子。在这些条件下,我们希望最大化边距(2 个红色条之间的距离),这只不过是最小化.
最大化边距背后的直觉是,这将为我们提供解决问题的独特解决方案(即我们丢弃例如蓝线)并且该解决方案在这些条件下是最通用的,即它充当正则化。这可以看作是,在决策边界(红线和黑线交叉的地方)附近,分类不确定性最大,为在这个区域将产生最通用的解决方案。
2 个红色条上的数据点是这种情况下的支持向量,它们对应于不等式条件的等式部分的非零拉格朗日乘数和
在这种情况下,目标是找到一个函数(红线)条件下在要求的精度范围内从价值价值(黑条)每个数据点,即 在哪里是红线和灰线之间的距离。在这种情况下,我们再次希望最小化,再次出于正则化的原因,并作为凸优化问题的结果获得唯一解。可以看到如何最小化导致更一般的情况为将意味着根本没有函数关系,这是人们可以从数据中获得的最普遍的结果。
2 个红色条上的数据点是这种情况下的支持向量,它们对应于不等式条件等式部分的非零拉格朗日乘数.
这两种情况都会导致以下问题:
在以下条件下:
在用于分类问题的 SVM 中,我们实际上尝试将类与分隔线(超平面)尽可能分开,并且与逻辑回归不同,我们从超平面的两侧创建一个安全边界(逻辑回归和 SVM 分类之间的区别在于它们的损失函数)。最终,尽可能远离超平面分离不同的数据点。
在回归问题的 SVM 中,我们想要拟合一个模型来预测未来的数量。因此,我们希望数据点(观察)尽可能接近超平面,不像 SVM 用于分类。支持向量机回归继承自简单回归,如(普通最小二乘),通过这种差异,我们从超平面的两侧定义了一个 epsilon 范围,以使回归函数对误差不敏感,这与用于分类的支持向量机不同,我们定义了一个可以安全制作的边界未来的决定(预测)。最终,