支持向量回归如何直观地工作?

机器算法验证 回归 支持向量机
2022-01-29 06:08:30

支持向量机的所有例子都与分类有关。我不明白如何在回归中使用用于回归的 SVM(支持向量回归器)。

据我了解,SVM 最大化两个类之间的边距以找到最佳超平面。这在回归问题中可能如何工作?

2个回答

简而言之:最大化边距可以更普遍地视为通过最小化来规范解决方案w(本质上是最小化模型复杂性)这在分类和回归中都完成。但是在分类的情况下,最小化是在所有示例都被正确分类的条件下完成的,而在回归的情况下,值y所有示例中的偏差小于要求的准确度ϵf(x)为回归。


为了了解您如何从分类到回归,有助于了解两种情况如何应用相同的 SVM 理论将问题表述为凸优化问题。我会尝试将两者并排放置。

(我将忽略允许错误分类和超出准确度的偏差的松弛变量ϵ)

分类

在这种情况下,目标是找到一个函数f(x)=wx+b在哪里f(x)1对于积极的例子和f(x)1对于负面的例子。在这些条件下,我们希望最大化边距(2 个红色条之间的距离),这只不过是最小化f=w.

最大化边距背后的直觉是,这将为我们提供解决问题的独特解决方案f(x)(即我们丢弃例如蓝线)并且该解决方案在这些条件下是最通用的,即它充当正则化这可以看作是,在决策边界(红线和黑线交叉的地方)附近,分类不确定性最大,为f(x)在这个区域将产生最通用的解决方案。

在此处输入图像描述

2 个红色条上的数据点是这种情况下的支持向量,它们对应于不等式条件的等式部分的非零拉格朗日乘数f(x)1f(x)1

回归

在这种情况下,目标是找到一个函数f(x)=wx+b(红线)条件下f(x)在要求的精度范围内ϵ从价值价值y(x)(黑条)每个数据点,即 |y(x)f(x)|ϵ在哪里epsilon是红线和灰线之间的距离。在这种情况下,我们再次希望最小化f(x)=w,再次出于正则化的原因,并作为凸优化问题的结果获得唯一解。可以看到如何最小化w导致更一般的情况为w=0将意味着根本没有函数关系,这是人们可以从数据中获得的最普遍的结果。

在此处输入图像描述

2 个红色条上的数据点是这种情况下的支持向量,它们对应于不等式条件等式部分的非零拉格朗日乘数|yf(x)|ϵ.

结论

这两种情况都会导致以下问题:

min12w2

在以下条件下:

  • 所有示例都正确分类(分类)
  • 价值y所有示例的偏差小于ϵf(x). (回归)

在用于分类问题的 SVM 中,我们实际上尝试将类与分隔线(超平面)尽可能分开,并且与逻辑回归不同,我们从超平面的两侧创建一个安全边界(逻辑回归和 SVM 分类之间的区别在于它们的损失函数)。最终,尽可能远离超平面分离不同的数据点。

在回归问题的 SVM 中,我们想要拟合一个模型来预测未来的数量。因此,我们希望数据点(观察)尽可能接近超平面,不像 SVM 用于分类。支持向量机回归继承自简单回归,如(普通最小二乘),通过这种差异,我们从超平面的两侧定义了一个 epsilon 范围,以使回归函数对误差不敏感,这与用于分类的支持向量机不同,我们定义了一个可以安全制作的边界未来的决定(预测)。最终,