理解 SVM 回归:目标函数和“平坦度”
机器算法验证
回归
支持向量机
2022-03-28 06:45:16
3个回答
我考虑平坦度的一种方式是,它使我的预测对特征中的扰动不那么敏感。也就是说,如果我正在构建一个 其中我的特征向量已经被归一化,那么中的较小值意味着我的模型对测量误差不太敏感/随机冲击/特征的非平稳性,。给定两个模型(即的两个可能值)同样可以很好地解释数据,我更喜欢“更平坦”的模型。
您还可以将 Ridge 回归视为在没有内核技巧或 SVM 'tube' 回归公式的情况下执行相同的操作。
编辑:针对@Yang的评论,更多解释:
- 考虑线性情况:。假设是从某个分布中绘制的独立同分布,与无关。通过点积恒等式,我们有,其中和之间的角度,它可能在某种球形均匀分布下分布。的预测的“传播”(例如成正比。. 为了通过我们观察的潜在无噪声版本获得良好的 MSE,我们想要缩小.cf James Stein 估计器。
- 考虑具有许多特征的线性案例。考虑模型和。如果比有更多的零元素,但解释力大致相同,我们会更喜欢它,基于奥卡姆剃刀,因为它依赖于更少的变量(即我们通过设置一些元素来“完成特征选择”的为零)。平坦度是这种论点的一种连续版本。的每个边际都有单位标准偏差,并且有例如2 个元素,它们是 10,剩下的小于 0.0001,具体取决于您对噪声的容忍度,这实际上是“选择”这两个特征,并将其余特征归零。
- 当使用内核技巧时,您将在高(有时是无限)维向量空间中执行线性回归。的每个元素现在对应于您的一个样本,而不是您的特征。如果个元素不为零,而剩余的个非零元素对应的特征称为“支持向量”。要存储你的 SVM 模型,比如说在磁盘上,你只需要保留这个特征向量,你可以把剩下的扔掉。现在平坦度真的很重要,因为有small 减少了存储和传输等要求。同样,根据您对噪声的容忍度,在执行 SVM 回归之后的所有元素归零,但对于某些 l 最大这里的平坦度就支持向量的数量而言相当于简约。
shabbychef从模型复杂度的角度给出了非常明确的解释。我会尝试从另一个角度理解这个问题,以防它对任何人有所帮助。
基本上我们希望最大化 SVC 中的利润。这在 SVR 中是相同的,而我们希望在定义的精度中最大化预测误差以实现更好的泛化。在这里,如果我们最小化预测误差而不是最大化,未知数据的预测结果更容易过拟合。让我们考虑一下一维情况下的“最大化预测误差”。
在一维情况下,我们的目标是最大化所有点内的趋势线的距离。请注意,我们将精度约束设置为以便我们可以最大化距离,而不是最小化。然后让我们看一下点到线的距离这个非常简单的方程。
现在分子仅限于。为了最大化距离,我们尝试做的是最小化。
任何人都可以轻松地将一维情况扩展到 N 维情况,因为距离方程将始终是欧几里得距离。
此外,我们可能会对 SVR 中的优化问题进行回顾以进行比较 [1]。
谢谢。
[1] Smola, A. 和 B. Schölkopf。支持向量回归教程。统计与计算,卷。14,第 3 期,2004 年 8 月,第 199-222 页。
至少,我认为最小化与SVM 分类设置中的概念边距没有任何关系。它服务于一个完全不同的目标,上面两篇文章很好地解释了这一点,即降低模型复杂性和避免过度拟合。
其它你可能感兴趣的问题