如何处理标签非均匀分布的分类问题?

数据挖掘 分类 多类分类 阶级失衡 多标签分类
2021-10-07 04:33:10

我有一个包含大约 1000 个样本的数据集,分为 4 组 - A、B、C、D。我面临的问题是有非常多的数据样本具有 B 和 C 的输出。它们以 3:1 的比例超过其他两个。由于这个原因,大多数分类问题都产生了非常低效的结果,其他两个类的结果经常被映射到 A 和 B 。有没有办法处理它?

2个回答

欢迎来到 DataScience.SE!您需要确保您的训练分布与您的测试分布相似,以获得最佳结果。这可以通过分层抽样来完成。可能没有问题,并且分类器只是分配其资源以最好地分类大多数情况,尽管我对您的描述有点困惑,因为您说 B 和 C 占主导地位以及“其他两个类别” (A 和 D)“经常映射到 A 和 B”。如果您能想到的话,一种选择是使用更具辨别力的特征。另一种是将大类划分为 (B 成为Bi如果适用,同样适用于 C)。如果类的形状很复杂,这可以通过将其分解为可学习的部分来提供帮助。它有助于绘制按类着色的输入,以了解哪些类重叠或具有复杂的形状。最后,如果某些类的错误比其他类更重要,您可以修改损失函数。

您可以尝试合并组 A 和 D,这将为模型提供更重要的边界。除此之外,您可以尝试对给定数据进行采样以形成新数据,从而形成所有组的均匀分布。