数据挖掘 - SVM 中的正则化参数如何影响超平面参数 - 吾爱随笔录

SVM 中的正则化参数如何影响超平面参数

数据挖掘支持向量机

2022-02-17 22:21:02

在学习 SVM 分类时，我遇到了正则化参数：所以据我了解，SVM 的主要目的是找到分离 2 个类的超平面如何影响超平面参数 w 和 b？我试图绘制 2D 案例，但仍然无法得到它。任何人都可以在这种情况下给出解释吗？谢谢。 $\lambda$ $F(w,b) = \left\lVert w\right\lVert_2^2 +\lambda \sum_{i=1}^n max(0,1-y_i(w^Tx_i +b)).$ $\{w^Tx+b=0\}$ $\lambda$

1个回答

这真是一个有趣的问题。事实上，很多人喜欢 Svm，很多人使用它，很多人理解 svm “最大化两个边缘之间的距离”的思想，前提是正确分类所有样本！很简单，但是当我们处理不可分离的数据和过拟合问题时会变得更复杂一些。

在您的问题中，您提到此参数有助于执行正则化，但为什么我们需要正则化？答案是避免过拟合。

但什么是过拟合？过拟合是数据过拟合的问题。如果您有嘈杂的数据，过度拟合可能会更加严重。

在 Svm 中，您可以将边距之间的距离视为您拟合数据的程度的指标。如果距离太小，那么您正在尝试“分开”彼此非常接近的样本。通常，如果两个样本彼此非常接近并且它们具有不同的标签，则其中一个是不正确的，或者它是一个嘈杂的样本。

现在，根据您的问题，您有两部分，第一部分控制边距之间的距离，第二部分控制未分类的错误。改变“增加”的 lambda 将更多地关注误差而不是距离。

您减少的 lambda 越多，您可以获得的边距之间的距离就越大。

为什么你没有在你的情节中清楚地看到这一点？因为您在两个边距之间绘制了超平面，所以如果您可以绘制边距，您将看到变化的 lambda 如何影响边距之间的距离。

其它你可能感兴趣的问题

上一篇将 SQL 数据集读入 Tensorflow 的最佳方法是什么？下一篇如何使用机器学习从文本中提取特征？