理解 SVM 回归:目标函数和“平坦度”

机器算法验证 回归 支持向量机
2022-03-28 06:45:16

用于分类的 SVM 对我来说很直观:我了解最小化如何产生最大边距。但是,我不理解回归背景下的目标。各种文本(此处此处)将其描述为最大化“平坦度”。我们为什么要这样做?回归中什么相当于“保证金”的概念?||θ||2

这里有一些尝试的答案,但没有一个能真正帮助我理解。

3个回答

我考虑平坦度的一种方式是,它使我的预测对特征中的扰动不那么敏感。也就是说,如果我正在构建一个 其中我的特征向量已经被归一化,那么中的较小值意味着我的模型对测量误差不太敏感/随机冲击/特征的非平稳性,给定两个模型(的两个可能值)同样可以很好地解释数据,我更喜欢“更平坦”的模型。

y=xθ+ϵ,
xθxθ

您还可以将 Ridge 回归视为在没有内核技巧或 SVM 'tube' 回归公式的情况下执行相同的操作。

编辑:针对@Yang的评论,更多解释:

  1. 考虑线性情况:假设是从某个分布中绘制的独立同分布,与无关。通过点积恒等式,我们有,其中之间的角度,它可能在某种球形均匀分布下分布。的预测的“传播”(例如成正比。. 为了通过我们观察的潜在无噪声版本获得良好的 MSE,我们想要缩小.y=xθ+ϵxθy=||x||||θ||cosψ+ϵψθxy||θ||||θ||cf James Stein 估计器
  2. 考虑具有许多特征的线性案例。考虑模型如果有更多的零元素,但解释力大致相同,我们会更喜欢它,基于奥卡姆剃刀,因为它依赖于更少的变量(我们通过设置一些元素来“完成特征选择”的为零)。平坦度是这种论点的一种连续版本。的每个边际都有单位标准偏差,并且例如2 个元素,它们是 10,剩下的y=xθ1+ϵy=xθ2+ϵθ1θ2θ1xθ1n2小于 0.0001,具体取决于您对噪声的容忍度,这实际上是“选择”这两个特征,并将其余特征归零。
  3. 当使用内核技巧时,您将在高(有时是无限)维向量空间中执行线性回归。的每个元素现在对应于您的一个样本,而不是您的特征如果个元素不为零,而剩余的个非零元素对应的特征称为“支持向量”。要存储你的 SVM 模型,比如说在磁盘上,你只需要保留这个特征向量,你可以把剩下的扔掉。现在平坦度真的很重要,因为有θkθmkkθkksmall 减少了存储和传输要求。同样,根据您对噪声的容忍度,在执行 SVM 回归之后的所有元素归零,但对于某些 l 最大这里的平坦度就支持向量的数量而言相当于简约。θll

shabbychef从模型复杂度的角度给出了非常明确的解释。我会尝试从另一个角度理解这个问题,以防它对任何人有所帮助。

基本上我们希望最大化 SVC 中的利润。这在 SVR 中是相同的,而我们希望在定义的精度中最大化预测误差以实现更好的泛化。在这里,如果我们最小化预测误差而不是最大化,未知数据的预测结果更容易过拟合。让我们考虑一下一维情况下的“最大化预测误差”。e

在一维情况下,我们的目标是最大化所有点内的趋势线的距离请注意,我们将精度约束设置为以便我们可以最大化距离,而不是最小化然后让我们看一下点到线的距离这个非常简单的方程。(xi,yi)y=ωx+bee

|ωxiyi+b|ω2+1

现在分子仅限于为了最大化距离,我们尝试做的是最小化eω

任何人都可以轻松地将一维情况扩展到 N 维情况,因为距离方程将始终是欧几里得距离

此外,我们可能会对 SVR 中的优化问题进行回顾以进行比较 [1]。

min12||ω||2
s.t.{yi<ω,xi>be<ω,xi>+byie

谢谢。

[1] Smola, A. 和 B. Schölkopf。支持向量回归教程。统计与计算,卷。14,第 3 期,2004 年 8 月,第 199-222 页。

至少,我认为最小化与SVM 分类设置中的概念边距没有任何关系。它服务于一个完全不同的目标,上面两篇文章很好地解释了这一点,即降低模型复杂性和避免过度拟合。θ