什么时候基于内核的方法比常规方法表现更好

机器算法验证 回归 机器学习 内核技巧
2022-03-28 14:36:19

我使用线性模型。我可以看到越来越多地使用基于内核的方法,特别是在机器学习中。

以下是使用gaussprR 包中的函数的示例高斯核kernlab该函数是用于分类和回归的高斯过程的实现。

require(kernlab)
x <- seq(-20,20,0.1)
y <- sin(x)/x + rnorm(401,sd=0.03)

# regression with gaussian processes
foo <- gausspr(x, y)
foo

# predict and plot
ytest <- predict(foo, x)
plot(x, y, type ="l")
lines(x, ytest, col="red")

此包中可用的内核方法包括:

rbfdot径向基核函数“高斯”

polydot多项式核函数

vanilladot线性核函数

tanhdot双曲正切核函数

laplacedot拉普拉斯核函数

besseldot贝塞尔核函数

anovadotANOVA RBF 核函数

splinedot样条内核

我的第一个问题是如何知道使用内核版本更好?

第二个问题是我们如何选择使用哪个内核?

2个回答

这个问题没有简单的答案。

通常,您会开始尝试使用线性核函数(我假设您将其称为“常规”)。如果数据不是线性可分的,那么就会有错误。因此,如果性能不令人满意,您将不得不尝试一些非线性核函数。

典型的下一个选择是 RBF 和 2 或 3 次多项式内核。最好的选择取决于问题样本的几何形状。这个想法是您尝试找到一个核函数,将您的样本映射到更高维空间中,其中样本变得线性可分。在实践中,您必须逐个尝试不同的选项,直到找到适合您的问题的方法。但是,更奇特的内核通常会考虑某些特定类型的应用程序或数据,除非您知道自己需要它们,否则您可以跳过它们。

当您增加复杂性并开始探索非线性内核时,您应该考虑一些权衡:

  • 过度拟合数据变得更容易(你开始拟合噪声)
  • 计算复杂度增加(更多时间/内存要求)
  • 您必须调整更多超参数(例如多项式内核的伽玛和度数)

对以前的答案还有一些想法:

什么是内核或内核方法?

核或正定核是正定矩阵的推广。在线性代数中,如果 zTMz 对于 n 个实数的每个非零列向量 z 都是正的,则称对称 n × n 实矩阵 M 是正定矩阵. 这里 zT 表示 z 的转置。核方法是一类用于模式分析的算法,其最著名的成员是支持向量机(SVM)。

什么是支持向量机?

来自维基百科:“在机器学习中,支持向量机(SVM,也支持向量网络)是具有相关学习算法的监督学习模型,用于分析数据和识别模式,用于分类和回归分析。给定一组训练示例,每个标记作为属于两个类别之一,SVM 训练算法构建一个模型,将新示例分配到一个类别或另一个类别中,使其成为非概率二元线性分类器。SVM 模型是将示例表示为空间中的点,映射,以便单独类别的示例被尽可能宽的明显间隙划分。然后将新示例映射到同一空间并根据它们落在间隙的哪一侧预测属于一个类别。

除了执行线性分类之外,SVM 还可以使用所谓的核技巧有效地执行非线性分类,将其输入隐式映射到高维特征空间。”

核方法的名字来源于使用核函数,这使它们能够在高维、隐式特征空间中操作,而无需计算该空间中数据的坐标,而是通过简单地计算图像之间的内积特征空间中的所有数据对。此操作通常在计算上比坐标的显式计算便宜。这种方法称为内核技巧

能够使用内核操作的算法包括内核感知器、支持向量机 (SVM)、高斯过程、主成分分析 (PCA)、典型相关分析、岭回归、谱聚类、线性自适应滤波器等。任何线性模型都可以通过对模型应用“内核技巧”转换为非线性模型:用内核函数替换其特征(预测变量) 。

径向基函数

(高斯)径向基函数内核或 RBF 内核是支持向量机分类中常用的内核函数。

Fisher 内核 Fisher 内核以纪念 Ronald Fisher 爵士的名字命名,是一种根据每个对象的测量集和统计模型来测量两个对象的相似性的函数。在分类过程中,可以通过跨类最小化从新对象到给定类的每个已知成员的 Fisher 核距离的平均值来估计新对象(其真实类是未知的)的类。Fisher 核是生成概率模型的内核。因此,它在文档的生成模型和概率模型之间架起了一座桥梁。

多项式核 多项式核是常用于支持向量机 (SVM) 和其他核化模型的核函数,它表示特征空间中向量(训练样本)在原始变量多项式上的相似性,允许学习非线性楷模。

直观地说,多项式核不仅查看输入样本的给定特征以确定它们的相似性,还查看这些特征的组合。在回归分析的上下文中,这种组合称为交互特征。多项式内核的(隐式)特征空间与多项式回归的特征空间等价,但在要学习的参数数量上没有组合爆炸。

RBF 核在 SVM 分类中比多项式核更流行。最常见的度数是 d=2。

因此,使用哪个内核的问题的答案是:(1)首先尝试最简单的内核,然后切换到更复杂的内核 - 因为过度拟合是危险的(2)从其他工作示例中学习类似的数据类型。这可能是快速的解决方案,很多次