为什么 SVM 的 RBF 内核中的大 gamma 会导致决策边界摆动并导致过度拟合?

机器算法验证 机器学习 分类 支持向量机 超参数 rbf内核
2022-04-09 10:37:54

超参数γGaussian/rbf 内核控制模型中由于偏差和方差引起的误差之间的权衡。如果你有一个非常大的 gamma 值,那么即使你的两个输入非常“相似”,核函数的值也会很小——这意味着支持向量xn 对测试样例的分类影响不大xm. 这使得 SVM 可以捕获更多的复杂性和形状的数据,但是如果 gamma 的值太大,那么模型可能会过拟合并且容易出现低偏差/高方差。

这是从这里(第二个答案)。我确实理解第一部分,即如果 gamma 很大,支持向量的影响不会太远。然而,我就是不明白为什么一个大的 gamma 会导致一个摇摆不定的决策边界,并捕获更多的复杂性和训练数据的形状,从而导致过度拟合。任何提示都会有所帮助!

1个回答

使用核化 SVM 相当于将数据映射到特征空间,然后在特征空间中使用线性 SVM。特征空间映射由核函数隐式定义,它计算特征空间中数据点之间的内积。那是:

κ(xi,xj)=Φ(xi),Φ(xj)

在哪里κ是核函数,xixj是数据点,并且Φ是特征空间映射。RBF 核将点非线性映射到无限维特征空间。

更大的 RBF 内核带宽(即更小的γ) 产生更平滑的决策边界,因为它们产生更平滑的特征空间映射暂时忘掉 RBF 内核,这里有一幅漫画展示了为什么更平滑的映射会产生更简单的决策边界:

在此处输入图像描述

在这个例子中,一维数据点被非线性地映射到更高维(2d)的特征空间中,并且线性分类器被拟合到特征空间中。特征空间中的决策边界是一个平面,但在原始输入空间中观察时是非线性的。当特征空间映射不太平滑时,数据可以以更复杂的方式“穿过”特征空间中的平面,从而在输入空间中产生更复杂的决策边界。