如果数据是线性可分的,支持向量机和逻辑回归是否等效?

数据挖掘 支持向量机 逻辑回归
2022-02-15 21:43:31

我知道支持向量机分离数据以最大边距绘制超平面,但如果数据是线性可分的,逻辑回归不会做同样的事情吗?

3个回答

非常接近,但不完全是。Georgios Drakos 的这篇文章从数学和视觉上解决了这个问题。这是帖子中的一张图片:

线性 SVM 与逻辑回归

它比较了软边距支持向量机(SVM) 和逻辑回归(LR)。

如果数据在训练、验证和测试期间是完全可分离的,那么是的,这两种算法的性能相同。他们都将找到分离数据的最佳决策边界。

它们不是唯一会画出这种边界的算法。与许多其他算法一样,线性判别式也将等效地执行。SVC 和 LR 并没有什么特别之处,他们和其他人都在试图找到一种以最有意义(即最小错误)的方式划分数据的方法。

但是,在野外很少发现完全可分离的数据。确实,如果数据是可分离的,那么您可能只需要自己定义一个决策边界(即 if x>5y=1else y=0)并获得完美的性能而无需进行优化。一旦数据不能完全分离,您就会发现算法如何分离数据的差异。你说 SVC 试图找到数据之间的最大边距是正确的,当它不完美时,他们将使用损失函数(通常是铰链损失)来帮助引导超平面以最小化错误分类的数量。LR 根据概率工作,这有点不同,但通常表现相似。

SVM 是一种基于核的方法,其核心是分类是二元的,并且服从 Mercer 的点积条件。此外,SVM 有各种内核,如“线性”、“多边形”和“径向基函数”内核。

通常,现实世界中没有一个数据集是线性可分的。即使是基数变化或降维有时也无法将其带到线性空间。

在最后一层的神经网络中,应用逻辑回归比使用 SVM 更受欢迎。