我如何处理其中一个类由“不是其他任何一个”定义的分类问题

数据挖掘 机器学习 分类
2021-10-05 09:46:36

假设我对三个课程感兴趣 c1, c2, c3. 但我的数据集实际上包含更多真实的类(cj)j=4n.

显而易见的答案是定义一个新类 c^4 指所有类 cj, j>3 但我怀疑这不是一个好主意,因为样本 c^4 将是罕见的,并且彼此不是很相似。

为了形象化我想说的,假设我有以下两个变量空间和类 c1, c2, c3, c^4=j=4ncj分别用红色、til、绿色和黑色表示。这就是我怀疑我的数据的样子。

在此处输入图像描述

有没有解决这个问题的标准方法?什么是最有效的分类器,为什么?

1个回答

我会使用一个两步的方法,使用的想法 c4^ 你提到的课。

第一步,使用二元分类器(在整个数据集上训练)来确定样本是否属于该类 c4^(即在任何不感兴趣的课程中)。为此,如果属于“有趣”类的样本与其他样本大不相同,您还可以查看异常值检测方法。

如果结果是否定的,则继续下一步,一个新的分类器只对属于类的样本进行训练c1,c2,c3并将该预测用作您的最终预测。

我认为即使使用简单的聚类方法作为第一步(例如,使用平均质心作为初始质心值的4 聚类k均值centj=xiD:yi=jxixiD:yi=j1 对于每个c1,c2,c3,c4^),仍然有用。