如何克服文本分类问题中的类不平衡问题?

数据挖掘 机器学习 深度学习 支持向量机
2022-02-25 16:59:38

数据集有 5 个标签 A、B、C、D、E

A,B,C 占多数,D&E 占少数。错误分类 D&E 的惩罚是巨大的。我怎样才能实施成本敏感的学习。模型的输入将是用户评论等英语句子。

1个回答

选项 1:使用对某事物进行分类的阈值——也许您可以设置一个阈值来将某事物分类为少数类,即使它没有最高的概率/分数或概率/阈值的比率。

选项 2:对您的数据进行上采样(重新采样并替换少数类,直到它们具有与其他类一样多的观察值)。

选项 3:使用一些成本敏感的算法(例如某些形式的分类树) - 可能不会转化为非常准确的结果。