我正在研究一个多类文本分类器。类的总数为 265,总行数为 20,000。出现次数最多的类有 6000 个样本,并且有很多类也只有 1 个样本。对数据的初步分析使我将 10 个样本的截止值作为要识别的类别,并且我制作了一个单独的杂项类别,该类别少于 10 个样本。现在我减少到27个班。从图中可以看出,仍然存在类不平衡,样本数最多的类有 6000 左右,最低的有 10 个。
我该如何处理如此大的班级不平衡?他们的算法是否更适合处理如此大的类不平衡?
] 1 ps://imgur.com/a/8hJw9MJ)