具有已知和未知类的多类文档分类

数据挖掘 nlp 多类分类 无监督学习 文本分类
2022-03-13 09:38:16

目前,我正在构建一个多类文档分类器,它必须对 3 个已知类进行分类,即“财务报告”、“Insurance_Sheet”、“背书”和一个未知类,即“随机 PDF”。

对于文档嵌入,我创建了管道 [TfidfVectorizer + SVD(用于降维)] 并拟合训练集(没有未知标记的文档或“随机 PDF”类的文档),然后使用该管道转换所有文档.

对于分类分为2个阶段:

  • 第 1 阶段:使用 One-Class SVM 分离未知和已知标记的文档以进行异常检测。理想情况下,未知文档将被分箱以进行手动标记,而已知标记的文档将被转移到阶段 2。
  • 第 2 阶段:为已知标记的文档训练多类(3 类)分类器。这适用于线性 SVC。

我的问题是在第一阶段,未知文档无法被检测为异常值(或未知标签),但所有未知文档都被 One-Class SVM 归类为“已知标签”。进一步的错误分析,我意识到我的未知文件是股东公告,它与已知的标签文件,即财务报告非常相似。

你能帮我建议任何更好的设计流程来处理这种多类文档分类吗?谢谢你的支持 !

0个回答
没有发现任何回复~