构建一个尝试将零个或多个预定义标签应用于文本的系统。
对于每个标签,我们已经:
- 建立了一个相当好的高价值词/特征词汇表
- 开发了一个包含数千个标记条目的语料库
- 为每个主题训练了一个 NaiveBayesClassifier,它可以很好地对有效内容和嘈杂内容进行分类
问题似乎是单个分类器非常擅长区分主题内的有效内容和嘈杂内容:
- “绿色能源法案将彻底改变……”(绿色=“绿色能源”)
- “绿湾包装工继续失去他们的......”(绿色!=“绿色能量”)
...但是在对不应匹配任何主题的内容进行分类时,误报率非常高。没有“其他一切”的标签!
tl;dr 它擅长微妙的、主题内的区分,但在广泛的主题标签方面很糟糕
是否有任何算法可以帮助您分类为 N 个类别,但允许可能不适合任何类别的“其他所有内容”?