(几乎)所有数据都是可分离的吗?

数据挖掘 分类 数据集 标签
2021-09-14 09:00:23

假设我有一些包含两个类的数据集。我可以在属于这些类之一的每个数据点周围绘制一个决策边界,从而分离数据,如下所示:

具有两个类的二维数据集

其中红线是属于类的数据点周围的决策边界。

显然这个模型过拟合非常糟糕,但是,我没有证明这个数据集是可分离的吗?

我问是因为在练习本中,有一个问题问“上述数据集是否可分离?如果是,它是线性可分的还是非线性可分的?”

我会说“是的,它是可分离的,但非线性可分离的。”

没有提供答案,所以我不确定,但我认为我的逻辑似乎是合理的。

我看到的唯一例外是两个数据点属于不同的类,但具有相同的特征。例如,如果上图中的一颗星星与其中一个圆圈完全重叠。我想这在实践中是相当罕见的。因此,我问,几乎所有数据都是可分离的吗?

3个回答

TL;博士

的,通过过度拟合,所有数据都变得(非线性)可分离(只要这些点不精确重叠)。

解释

您的论点的问题是您在 2D 平面上使用圆,这很难学习。但是,我认为您的论点可以通过决策树变得更强大。

(0.2, 3.1)? --> yes -> star
            \-> no  -> (1.2, 4.5)? --> yes -> circle
                                   \-> no  -> (x1, x2)? --> yes ...
                                                        \-> no  ...

决策树是公认的模型,但请注意它们是非线性模型。这样,很容易争论所有数据都变得可分离。

但是,问题在于过度拟合因为这样的模型会因为以前未见过的数据点而变得不稳定。因此,仅仅因为训练数据是可分离的,并不意味着从中生成的模型变得有用。

在咨询了我的教授,即从 OP 中的练习册中写出问题的人之后,这是他们的观点:

数据点组总是可以分开的。例外情况是两个点位于同一位置。

但是,要考虑的事情是您的决策边界是否可以分离看不见的数据,这些数据由与训练数据来源相同的基础分布生成。

在问题中显示的示例中,数据是从均匀随机分布生成的。如果我们从相同的分布中生成看不见的数据,您可以在任何地方绘制决策边界,并且在对这些看不见的数据进行分类时,您的分类器的性能永远不会比随机猜测好得多,例如使用掷硬币的结果进行分类。

所以问题中示例中的类是不可分离的。

这是我的答案:分离基本上意味着案件的类型是分开的,但相同类型的案件不是。

在您的情况下,我假设您图中的星星属于同一类型,因此它们不应彼此分开,而应相互连接。在这种情况下,数据不可分离

另一方面,如果您有 11 种类型的案例,并且图表中的每个星都属于单独的类型,那么您的解决方案将是正确的。在这种情况下,数据是可分的,但它们不是线性可分的。

我喜欢@BrunoGL 给出的答案。然而,deision 树单独挑选出每个“明星”案例。由此产生的过度拟合基本上与将每颗星视为一个单独的类型并将它们放在一个类中的分类(作为“非圆”类)之后相同。