我有一个属于三个不同类别的数据集:A、B 和 C。在这三个类别中,标签 C 的分类与其他两个类别相比是不可靠的。换句话说,C 类中的一些样本实际上属于 A 类和 B 类。现在,我需要运行一些监督学习(逻辑回归、决策树和随机森林)模型。根据混淆矩阵,A和B之间的分类是比较准确的,但是C和其他两个类之间的分类是不能接受的。我想知道是否有任何方法可以处理这个问题?
目前,我正在考虑在运行模型之前对 C 类中的样本使用聚类算法。将 C 类的样本分成 3 组后,尝试找到一个相对较好的组作为 C 类的数据集。