支持向量机和超平面的直觉

机器算法验证 机器学习 物流 分类 支持向量机 分离
2022-02-01 09:28:41

在我的项目中,我想创建一个逻辑回归模型来预测二元分类(1 或 0)。

我有 15 个变量,其中 2 个是分类变量,其余的是连续变量和离散变量的混合。

为了拟合逻辑回归模型,有人建议我使用 SVM、感知器或线性规划来检查线性可分性。这与此处提出的关于测试线性可分性的建议相关。

作为机器学习的新手,我了解上述算法的基本概念,但从概念上讲,我很难想象我们如何分离具有如此多维度的数据,在我的例子中是 15 个。

在线资料中的所有示例通常显示两个数值变量(身高、体重)的 2D 图,显示类别之间的明显差距并使其更易于理解,但在现实世界中,数据通常具有更高的维度。我一直被吸引回到 Iris 数据集,并试图通过三个物种拟合一个超平面,以及在两个物种之间这样做是多么困难,如果不是不可能的话,这两个类现在让我无法理解。

当我们有更高阶的维度时如何实现这一点,是否假设当我们超过一定数量的特征时,我们使用内核映射到更高维度的空间以实现这种可分离性?

另外为了测试线性可分性,使用的度量是什么?是支持向量机模型的准确度,即基于混淆矩阵的准确度吗?

任何有助于更好地理解这个主题的帮助将不胜感激。下面也是我的数据集中两个变量的图示例,它显示了这两个变量的重叠程度。

在此处输入图像描述

3个回答

我将尝试帮助您了解为什么添加维度有助于线性分类器更好地分离两个类。

想象一下,你有两个连续的预测变量,我们正在做一个二元分类。这意味着我们的数据看起来像这样:X1X2n=3

n=3

现在想象一下,将一些点分配给类 1,将一些点分配给类 2。请注意,无论我们如何将类分配给点,我们总是可以绘制一条完美分隔这两个类的线。

但是现在假设我们添加了一个新点:

n=4

现在将这些点分配给两个类,因此一条线无法将它们完美地分开;图中的颜色给出了一个这样的分配(这是 XOR 模式的一个示例,在评估分类器时要记住一个非常有用的模式)。所以这向我们展示了如何使用变量我们可以使用线性分类器来完美地分类任何三个(非共线)点,但我们通常不能完美地分类 4 个非共线点。p=2

但是如果我们现在添加另一个预测变量会发生什么?X3

p=3,n=4

这里较浅的阴影点更接近原点。这可能有点难看,但现在有了,我们再次可以完美地将任何类别标签分配到这些点。p=3n=4

一般结果:使用个预测变量,线性模型可以完美地将两个类别的任何分配分类为个点。pp+1

所有这一切的重点是,如果我们保持固定并增加,我们会增加我们可以分离的模式数量,直到我们达到可以完美分类任何标签分配的程度。使用核 SVM,我们在高维空间中隐式拟合线性分类器,所以这就是为什么我们很少需要担心分离的存在。np

对于一组可能的分类器,如果对于个点的样本存在中的函数可以完美地将任何标签分配分类到这些个点,我们说可以粉碎n 个点。如果个变量中所有线性分类器的集合,则最多可以粉碎个点。如果FnFnFFpFn=p+1Fp变量然后它可以粉碎任意数量的点。这个破碎的概念告诉我们一组可能的分类器的复杂性,它来自统计学习理论,可以用来说明一组分类器可以做的过度拟合量。如果您对此感兴趣,我强烈推荐 Luxburg 和 Schölkopf “统计学习理论:模型、概念和结果”(2008 年)。

当您将自己对低维空间的直觉应用到高维空间时,很容易犯错。在这种情况下,您的直觉完全相反。事实证明,在高维空间中找到分离超平面比在低维空间中要容易得多。

尽管在查看任意两对变量时,红色和蓝色分布是重叠的,但当同时查看所有 15 个变量时,它们很可能根本不重叠。

您有 15 个变量,但并非所有变量都对区分因变量具有同等重要意义(其中一些甚至可能几乎不相关)。

主成分分析 (PCA)重新计算这 15 个变量的线性基础,并对它们进行排序,使得前几个成分通常可以解释大部分方差。因此,这允许您将 15 维问题简化为(例如)2、3、4 或 5 维问题。因此,它使绘图更加直观;通常,您可以将两个或三个轴用于数字(或高基数序数)变量,然后将标记颜色、形状和大小用于三个额外维度(如果您可以组合低基数序数,可能会更多)。因此,使用 6 台最重要的 PC 进行绘图应该可以让您更清晰地了解您的决策面。