基于关键字构建文档分类器,步骤是什么?

数据挖掘 机器学习 Python 分类 模型选择 分类器
2022-03-03 10:03:57

我需要.doc根据配置文件对文档(文件)进行分类。我有一个csv包含数据的文件:

label          keyWords
Web developer  ["html","css","php"]
Developer      ["core","java","python"]
Embedded Dev   ["ARM", "CORTEX", "C"]

现在我想对.doc文件进行分类。

另外请告诉我model要使用什么?或继续进行的广泛步骤(例如构建数据框->然后拆分数据等等...)

编辑:
关于如何进行文档分类器的任何指示?

1个回答

收到你的电子邮件...

为你构建了这个示例存储库: https ://github.com/dancrew32/resume_classifer/

如果你浏览笔记本,我概述了设置标签的过程,为不同类型的简历设置不同的文件夹,加载它们,向量化文本,使用逻辑回归进行分类。

https://github.com/dancrew32/resume_classifer/blob/master/Resume%20Doc%20Classifier.ipynb

如果您有任何问题,请告诉我。

PS永远不要添加跳过按钮;)