从简历中提取信息

数据挖掘 分类 lstm 文本挖掘 rnn 命名实体识别
2022-03-07 00:10:58

我有一个机器学习项目,我需要在其中分析简历。为此,我必须编写一个 python 程序。它使用自然语言处理的基本技术,如单词解析、分块、reg ex parser。如果您运行该算法,您可以在几秒钟内从大量文档中轻松捕获姓名、电子邮件 ID、地址、学历、经验等信息。但我对 LSTM (RNN) 和 NER 两种方法有混淆吗?你认为最好的方法是什么?

3个回答

LSTM 是一种用于序列预测的神经网络架构,而 NER 是 NLP 任务的名称。

两者是无法比拟的,一个是方法,另一个是问题。

它们之间的关系是LSTMs可以用于序列标注,可以用于NER。

我在同一个项目上工作了几个月。我想说,如果您有足够的标记数据,它们都可以很好地工作。对于那些实体(例如:姓名、电子邮件 ID、地址、学历),Regular Express 就足够了。对于方差体验,您需要 NER 或 DNN。如果日期的数量很少,NER 是最好的。

你知道简历是半结构化的。您可以认为简历是由差异实体组合而成的(例如:姓名、职位、公司、描述文本、日期等),因此您可以将它们组合起来以扩展您的火车数据集。

我建议您使用 spacy 并为 NER 添加自己的自定义标签。

https://spacy.io/usage/training/#ner