规划分类器以根据文本识别特定文档。类别是互斥的,包括:求职简历、薪水、季度财务报告等,数据是从doc、pdf、xls等中提取的文本。
在特征工程阶段,考虑到问题:
- 一个多类分类器还是多个 One vs. Rest(每个类别一个)?
- 词嵌入 (Word2Vec/GloVe) - 所有类别的嵌入或每个类别的单独嵌入?
我倾向于使用多个 one vs. rest 分类器(以允许仅动态使用某些类别)和一个用于所有类别的嵌入(以节省预测时间)。
项目架构:最初是基本的 LogReg,但很快会发展到 CNN / CNN+RNN。
项目规模:
- 培训:每个类别数百人
- 预测:数百万个文件
请随时分享任何见解或参考,谢谢