将一个特定类别的文档与其他文档分类

数据挖掘 机器学习 nlp 文本 文本分类
2022-01-29 19:41:24

我正在尝试构建一个分类器来分类文档是否是关于体育的文档。我有足够的体育文档样本来训练分类器,但是我无法想象如何对“非体育文档”类别进行采样,因为可以有任何东西——书籍、新闻文章、简历、发票等。如何处理这个问题?

我已经尝试用我的运动文档样本训练一类 SVM 分类器,但结果证明准确度很差——大约 6%。

我还阅读了有关 PU 学习的内容,您认为这是要走的路吗?还有其他选择吗?

谢谢你。

1个回答

您的问题确实是一个典型的一类分类问题,据我所知,一类 SVM 通常是一个不错的选择。

我认为您应该调查导致性能不佳的原因:

  • 准确评估可能提供的信息不够,您至少需要找出错误往往是误报还是误报,因此使用精确度/召回率。
  • 您可以查看特征级别发生的情况:例如,我希望 SVM 会为某些特定于运动的词赋予很大的权重。也可能是维度太高的问题,也许你需要删除停用词或过滤掉稀有词等。