数据集有 5 个标签 A、B、C、D、E
A,B,C 占多数,D&E 占少数。错误分类 D&E 的惩罚是巨大的。我怎样才能实施成本敏感的学习。模型的输入将是用户评论等英语句子。
数据集有 5 个标签 A、B、C、D、E
A,B,C 占多数,D&E 占少数。错误分类 D&E 的惩罚是巨大的。我怎样才能实施成本敏感的学习。模型的输入将是用户评论等英语句子。
选项 1:使用对某事物进行分类的阈值——也许您可以设置一个阈值来将某事物分类为少数类,即使它没有最高的概率/分数或概率/阈值的比率。
选项 2:对您的数据进行上采样(重新采样并替换少数类,直到它们具有与其他类一样多的观察值)。
选项 3:使用一些成本敏感的算法(例如某些形式的分类树) - 可能不会转化为非常准确的结果。