文档分类 - 最佳分类器和嵌入

数据挖掘 机器学习 分类 nlp word2vec 词嵌入
2022-02-22 23:11:56

规划分类器以根据文本识别特定文档。类别是互斥的,包括:求职简历、薪水、季度财务报告等,数据是从doc、pdf、xls等中提取的文本。

在特征工程阶段,考虑到问题:

  1. 一个多类分类器还是多个 One vs. Rest(每个类别一个)?
  2. 词嵌入 (Word2Vec/GloVe) - 所有类别的嵌入每个类别的单独嵌入?

我倾向于使用多个 one vs. rest 分类器(以允许仅动态使用某些类别)和一个用于所有类别的嵌入(以节省预测时间)。

项目架构:最初是基本的 LogReg,但很快会发展到 CNN / CNN+RNN。

项目规模

  • 培训:每个类别数百人
  • 预测:数百万个文件

请随时分享任何见解或参考,谢谢

1个回答

我建议看一下fasttext,它会从你的语料库中为你学习词嵌入(word2vec 嵌入的优势在于它学习基于字符 ngram 的表示,所以如果一个词存在,但它的复数不存在,它会仍然有类似的表示),然后在监督学习模式下,它使用非常简单的方法,例如回归进行分类,前提是您有标记数据的示例。我用简单的 20newsgroups 进行了尝试,它适用于不同的类别。也许不是一个对生产友好的解决方案(它在 c++ 中,但可以扩展到 python,尽管并非没有痛苦),但可以给出一个想法。鉴于算法的性质,与网络相比,它很快。