假设我有一些包含两个类的数据集。我可以在属于这些类之一的每个数据点周围绘制一个决策边界,从而分离数据,如下所示:
其中红线是属于星类的数据点周围的决策边界。
显然这个模型过拟合非常糟糕,但是,我没有证明这个数据集是可分离的吗?
我问是因为在练习本中,有一个问题问“上述数据集是否可分离?如果是,它是线性可分的还是非线性可分的?”
我会说“是的,它是可分离的,但非线性可分离的。”
没有提供答案,所以我不确定,但我认为我的逻辑似乎是合理的。
我看到的唯一例外是两个数据点属于不同的类,但具有相同的特征。例如,如果上图中的一颗星星与其中一个圆圈完全重叠。我想这在实践中是相当罕见的。因此,我问,几乎所有数据都是可分离的吗?