SVM 是否表现良好的几何解释

数据挖掘 机器学习 支持向量机 可视化 表现 监督学习
2021-10-01 20:51:18

我遇到了包含这个数字的研究论文在此处输入图像描述

它讨论了质心(大概是训练数据集的数据点的中心?),并将 SVM 的解决方案表示为多边形(或者它是一个点?)。我无法理解这个数字,因为它似乎提供了 SVM 何时表现不佳的几何解释,我对此很感兴趣。有什么想法吗?

1个回答

最有趣的论文!跟随奥珀和豪斯勒,作者定义了一个版本空间分隔训练样本的单位向量集:

V{w|yif(xi)>0,i=1,,n,w2=1}

请记住,我们正在处理一个分类问题,其中yi{1,+1},所以我们想要我们的分类器f(xi)有相同的符号yi. 回想一下可能会有所帮助w=iαiϕ(xi)f(x)=w,ϕ(x)=iαik(xi,x)

一般yi(w,ϕ(xi)+b)1. 他们所做的是设置b=0并消除边距(RHS)。长度约束是为了保证唯一性。

版本空间被示为球体上的一个区域,如图 1 和图 2 所示。5 和 6。如果版本空间的形状如图 5 所示,则 SVM 解决方案接近最优点。然而,如果它具有如图 6 所示的细长形状,则 SVM 解决方案远非最佳解决方案。

存在内接球体的原因是:

SVM 解与版本空间的 Tchebycheff-center 重合,即版本空间中包含的最大球体的中心V. 然而,版本空间中产生贝叶斯最优决策边界的理论最优点是贝叶斯点,已知它与质心非常接近。

换句话说,他们说 SVM 分类器并不总是贝叶斯最优的。请参阅参考资料以获得证明。当您考虑边距时,超球面就会出现γminyif(xi). 支持向量是与超球面相切的版本空间的边界。

一篇引用的论文* 遵循这一想法,开发了一种算法,“通过对版本空间中弹跳的台球轨迹进行平均”来实际估计质心。如果您对诊断 SVM 故障感兴趣,也许阅读那篇论文也会有所帮助,因为它声称提供了更好的算法。


M. Opper 和 D. Haussler,“用于学习感知器的贝叶斯最优分类算法的泛化性能”,Phys。牧师莱特。, 卷。第 66 页,第 2677,1991。

* T. Graepel、R. Herbrich 和 C. Campbell,“贝叶斯点机器:估计内核空间中的贝叶斯点”,Proc。IJCAI 车间支持向量机,1999 年,第 23-27 页