具有不同标签的重度重叠数据点的分类

数据挖掘 机器学习 分类
2021-09-24 12:22:36

我正在尝试构建一个分类器,对不同类别的数据点进行分类,但它们明显重叠,但我不确定如何最好地解决这个问题。我已经读过树模型可以在这种情况下表现良好,支持向量机也可以,但我不清楚还有哪些其他方法可能有助于解决这个问题。谁能给我一些指导?

2个回答

您可以在这里采取多种方法。假设数据重叠使得类仍然可以与人类专家区分开来——人类表现通常被认为是监督分类任务中的性能上限——你可以从特征端的分类器端来解决这个问题。

首先,我会考虑您用于任务的特征表示。分类器的好坏取决于您提供的信息,您可以通过多种方式调整表示输入数据的方式。例如,如果您从事文本分类工作,与二元表示相比,使用一元表示通常会导致不同的性能同样,您可以将非线性转换应用于分类器可能无法自行提取的连续值数据。您应该考虑问题所在的领域,并使用保留训练数据集创建一组特征生成和特征选择交叉验证实验。

接下来,我将考虑您可以在分类器端进行哪些更改。如果您的数据高度偏斜(即,一个类比另一个类更普遍),使用像朴素贝叶斯这样的算法可能没有意义,至少在没有一些抽样方法的情况下是没有意义的。如果您的问题不是高维问题,我建议您生成一个图形,让您按类别探索空间细分。如果不使用核函数(例如径向基函数),某些重叠模式(如支持向量机)将无法分类。

我会说这在很大程度上取决于您标签的性质。为什么它们重叠?我习惯与鱼打交道,我们习惯于获取一些假阴性数据。很简单,没有enocuh鱼可以占据每一个合适的地方。在这种情况下,我们通常倾向于存在数据。但是,输入变量/特征可能不利于充分区分,这就是它们看起来重叠的原因......(我们需要额外的信息。)。您可以支持一个或多个标签来惩罚其他标签,但这总是以牺牲准确性为代价。在这种情况下,具有案例权重的 SVM 可能会起作用。同样,如果他们允许包含案例权重,其他人也会这样做。祝你好运!