当我们有线性不可分的数据集并且我们使用机器学习算法(例如 SVM)时,我们使用内核将数据点隐式映射到特征空间中,使它们线性可分。
但是我们如何知道内核是否确实隐含地成功地使数据点在新特征空间中线性可分?什么是保证?
当我们有线性不可分的数据集并且我们使用机器学习算法(例如 SVM)时,我们使用内核将数据点隐式映射到特征空间中,使它们线性可分。
但是我们如何知道内核是否确实隐含地成功地使数据点在新特征空间中线性可分?什么是保证?
你不能保证这一点。由于重复,某些数据不能被任何内核分离。
过分努力,会导致过拟合。本质上,您强制隐式映射非常复杂,它包含您的训练数据的副本(如果您使用 RBF 选择太小的带宽,这正是发生的情况)。
如果你想要一个好的泛化性能,你将不得不容忍一些错误,并使用例如软边距和这样的技术。
完美的分离不是目标。这样的保证只是能够过拟合的保证!使用交叉验证来降低过度拟合的风险,并在训练数据最优和实际性能之间找到适当的平衡。