我正在尝试构建一个分类器来分类文档是否是关于体育的文档。我有足够的体育文档样本来训练分类器,但是我无法想象如何对“非体育文档”类别进行采样,因为可以有任何东西——书籍、新闻文章、简历、发票等。如何处理这个问题?
我已经尝试用我的运动文档样本训练一类 SVM 分类器,但结果证明准确度很差——大约 6%。
我还阅读了有关 PU 学习的内容,您认为这是要走的路吗?还有其他选择吗?
谢谢你。
我正在尝试构建一个分类器来分类文档是否是关于体育的文档。我有足够的体育文档样本来训练分类器,但是我无法想象如何对“非体育文档”类别进行采样,因为可以有任何东西——书籍、新闻文章、简历、发票等。如何处理这个问题?
我已经尝试用我的运动文档样本训练一类 SVM 分类器,但结果证明准确度很差——大约 6%。
我还阅读了有关 PU 学习的内容,您认为这是要走的路吗?还有其他选择吗?
谢谢你。
您的问题确实是一个典型的一类分类问题,据我所知,一类 SVM 通常是一个不错的选择。
我认为您应该调查导致性能不佳的原因: