我有一个文本文档语料库,其中一些由分析师标记为 L。我正在使用这些数据来训练 SVM 来预测新文档是否应该具有标签 L。
到目前为止,它是直截了当的,但有一个问题:分析师没有评估训练集中的所有文档,所以实际上有三类文档:
- 标记为 L 的文件
- 分析师查看过的文件,并选择不标记 L(因此您可以说它们被标记为 not-L)
- 分析师没有看过的文件。
不幸的是,在训练时,我无法区分 2. 和 3 中的文档,或者非 L 和未标记的文档。我认为这是一个问题,因为非 L 标签为 SVM 提供了信息,但未标记的文档更“中性”。
我如何估计此问题对预测新文档是否应具有标签 L 的影响?