我了解到,在使用基于模型的方法处理数据时,第一步是将数据过程建模为统计模型。然后下一步是基于这个统计模型开发高效/快速的推理/学习算法。所以我想问一下支持向量机(SVM)算法背后的统计模型是什么?
SVM算法背后的统计模型是什么?
你经常可以写一个模型对应一个损失函数(这里我要讲的是SVM回归而不是SVM-classification;它特别简单)
例如,在线性模型中,如果您的损失函数是,那么最小化将对应于。(这里我有一个线性内核)
如果我没记错的话,SVM 回归有一个像这样的损失函数:
这对应于中间均匀的具有指数尾的密度(正如我们通过对其负数或负数的某个倍数取幂所看到的那样)。
其中有 3 个参数系列:角位置(相对不敏感阈值)加上位置和比例。
这是一个有趣的密度;如果我从几十年前查看该特定分布中正确回忆起,它的位置的一个很好的估计是对应于角位置的两个对称放置的分位数的平均值(例如, midhinge将为一个特定的 MLE 提供一个很好的近似值SVM损失中常数的选择);比例参数的类似估计器将基于它们的差异,而第三个参数基本上对应于计算出角点所在的百分位数(这可能会被选择,而不是像 SVM 那样经常被估计)。
因此,至少对于 SVM 回归来说,它看起来非常简单,至少如果我们选择通过最大似然来获得我们的估计量。
(如果你要问......我没有提到这个与 SVM 的特殊联系:我现在才解决这个问题。然而,它是如此简单,以至于数十人会在我之前解决它,所以毫无疑问有它的参考资料——我从来没有见过。)
我想有人已经回答了你的字面问题,但让我澄清一个潜在的困惑。
您的问题与以下内容有些相似:
我有这个函数我想知道它是什么微分方程的解?
换句话说,它肯定有一个有效的答案(如果你施加正则性约束,甚至可能是一个独特的答案),但这是一个相当奇怪的问题,因为它不是首先产生该函数的微分方程。
(另一方面,给定微分方程,很自然地要求它的解,因为这通常是你写方程的原因!)
原因如下:我认为您正在考虑概率/统计模型——特别是基于从数据中估计联合概率和条件概率的生成模型和判别模型。
SVM 两者都不是。这是一种完全不同的模型——绕过这些模型并尝试直接对最终决策边界进行建模,概率该死的。
由于它是关于寻找决策边界的形状,它背后的直觉是几何的(或者我们应该说是基于优化的)而不是概率或统计的。
鉴于在此过程中的任何地方都没有真正考虑概率,那么询问相应的概率模型可能是什么是相当不寻常的,特别是因为整个目标是避免不得不担心概率。因此,为什么您看不到人们在谈论它们。