数据挖掘 - 如何克服文本分类问题中的类不平衡问题？ - 吾爱随笔录

数据挖掘机器学习深度学习支持向量机

2022-02-25 16:59:38

数据集有 5 个标签 A、B、C、D、E

A,B,C 占多数，D&E 占少数。错误分类 D&E 的惩罚是巨大的。我怎样才能实施成本敏感的学习。模型的输入将是用户评论等英语句子。

1个回答

选项 1：使用对某事物进行分类的阈值——也许您可以设置一个阈值来将某事物分类为少数类，即使它没有最高的概率/分数或概率/阈值的比率。

选项 2：对您的数据进行上采样（重新采样并替换少数类，直到它们具有与其他类一样多的观察值）。

选项 3：使用一些成本敏感的算法（例如某些形式的分类树） - 可能不会转化为非常准确的结果。

其它你可能感兴趣的问题