具有最小置信阈值的多标签文本分类

数据挖掘 分类 Python nlp 文本挖掘
2022-03-08 08:52:53

构建一个尝试将零个或多个预定义标签应用于文本的系统。

对于每个标签,我们已经:

  • 建立了一个相当好的高价值词/特征词汇表
  • 开发了一个包含数千个标记条目的语料库
  • 为每个主题训练了一个 NaiveBayesClassifier,它可以很好地对有效内容和嘈杂内容进行分类

问题似乎是单个分类器非常擅长区分主题内的有效内容和嘈杂内容

  • “绿色能源法案将彻底改变……”(绿色=“绿色能源”)
  • “绿湾包装工继续失去他们的......”(绿色!=“绿色能量”)

...但是在对不应匹配任何主题的内容进行分类时,误报率非常高。没有“其他一切”的标签!

tl;dr 它擅长微妙的、主题内的区分,但在广泛的主题标签方面很糟糕

是否有任何算法可以帮助您分类为 N 个类别,但允许可能不适合任何类别的“其他所有内容”?

1个回答

看起来多类分类的常用方法实际上解决了这个挑战。

仅使用单个标签的训练数据构建单个朴素贝叶斯分类器是不够的——我们还必须将来自其他标签的数据作为“其他所有内容”包含在内。

请参阅文本分类问题,正确的方法是什么?