未标记文档对通过 SVM 进行标签预测的影响

数据挖掘 机器学习 统计数据 支持向量机 多标签分类
2021-10-06 17:52:13

我有一个文本文档语料库,其中一些由分析师标记为 L。我正在使用这些数据来训练 SVM 来预测新文档是否应该具有标签 L。

到目前为止,它是直截了当的,但有一个问题:分析师没有评估训练集中的所有文档,所以实际上有三类文档:

  1. 标记为 L 的文件
  2. 分析师查看过的文件,并选择不标记 L(因此您可以说它们被标记为 not-L)
  3. 分析师没有看过的文件。

不幸的是,在训练时,我无法区分 2. 和 3 中的文档,或者非 L 和未标记的文档。我认为这是一个问题,因为非 L 标签为 SVM 提供了信息,但未标记的文档更“中性”。

我如何估计此问题对预测新文档是否应具有标签 L 的影响?

2个回答

如上所述,这与您的问题略有不同,但如果您的目标是建立一个良好的模型来预测标记的文档L,我最初会将其表述为推荐系统问题,直到您达到系统学习曲线中的理想点。几年前我在一份出版物中正是这样做的在我的方法中,所有标记的文档都用于训练 SVM,而所有未标记的文档都用于分类。我使用每个分类文档的签名边距距离进行排名,并取顶部-n作为下一个n审阅者应指定标签的文件(L,Lnot). 这个过程的一个副作用是,当您向模型中添加新的标记文档时,您可以迭代地评估分类器的性能,这应该可以满足您的需求。如果这种方法听起来对您有用,我建议您查看我的论文,因为我描述了一些对此有用的性能指标,此外还概述了要使用的特定过程,以确保您不会对模型产生偏见。

我不相信经典的 SVM 是这种情况下的正确工具,仅仅因为你没有负面因素。我会尝试使用以下之一:

  1. 半监督方法:如果您的数据可以很好地聚类,那么您可以使用您的数据确定哪些集群对应于正例并将其用作分类器
  2. 使用 1 类 SVM