数据挖掘 - 从简历中提取信息 - 吾爱随笔录

从简历中提取信息

数据挖掘分类 lstm 文本挖掘 rnn 命名实体识别

2022-03-07 00:10:58

我有一个机器学习项目，我需要在其中分析简历。为此，我必须编写一个 python 程序。它使用自然语言处理的基本技术，如单词解析、分块、reg ex parser。如果您运行该算法，您可以在几秒钟内从大量文档中轻松捕获姓名、电子邮件 ID、地址、学历、经验等信息。但我对 LSTM (RNN) 和 NER 两种方法有混淆吗？你认为最好的方法是什么？

3个回答

LSTM 是一种用于序列预测的神经网络架构，而 NER 是 NLP 任务的名称。

两者是无法比拟的，一个是方法，另一个是问题。

它们之间的关系是LSTMs可以用于序列标注，可以用于NER。

我在同一个项目上工作了几个月。我想说，如果您有足够的标记数据，它们都可以很好地工作。对于那些实体（例如：姓名、电子邮件 ID、地址、学历），Regular Express 就足够了。对于方差体验，您需要 NER 或 DNN。如果日期的数量很少，NER 是最好的。

你知道简历是半结构化的。您可以认为简历是由差异实体组合而成的（例如：姓名、职位、公司、描述文本、日期等），因此您可以将它们组合起来以扩展您的火车数据集。

我建议您使用 spacy 并为 NER 添加自己的自定义标签。

https://spacy.io/usage/training/#ner

其它你可能感兴趣的问题

上一篇使用 MacBook Pro 进行深度学习的 GPU 卡？下一篇如何使用张量流keras python根据用户驾驶执照对国籍进行分类？