如何从简历中提取重要短语(可能包含公司名称)?

数据挖掘 机器学习 数据挖掘 nlp 解析
2021-09-15 15:29:36

我有成千上万的简历/简历。我们想构建一个可以从简历中提取公司名称的解析器。

到目前为止,我们已经尝试过

  1. 维护公司(例如 Org、Ltd、Limited、Technologies 等)中出现的常用词列表,并使用它们来识别可能的公司。但是这个列表是有限的,很多时候很多公司都没有被提取出来。

  2. 使用 CV 的 HTML,我们尝试为可能具有特定功能的公司(如粗体、斜体)给予更高的分数

由于简历不仅仅是文本,而且我们总是有一些结构信息。应该有更好的方法来提取信息。也许训练一些可以预测简历中提到的公司的模型。我们对任何更好的方法/建议持开放态度,我们可以将其纳入我们的系统以提高准确性。到目前为止的精度真的很差(低于 45%)。

我们已经在简历中做了工作经验的分割。因此,我们能够以非常高的精度提取包含工作经验的片段。

我们还有一份完整的公司名单(百万)。尽管它包含重复项并且需要大量清洁。但是是的,我们有很多数据

编辑

我们正在尝试的其他方法 - 我们尝试使用 N-Grams 预测文本中的重要短语,然后将它们标记为可能的公司。然后我们与我们一起搜索公司语料库以找到任何匹配项。这种技术有多大用处?有更好的方法吗?

2个回答

听起来你想要命名实体识别NER 有多种方法和大量实现,例如斯坦福 NER 包

找到命名实体后,确定命名实体所指的内容称为概念规范化

您是否尝试过 XML 包?在一个类似的问题中,在 SE 中,最受好评的答案建议为此使用一些软件包。

在这里:https ://stackoverflow.com/questions/3195522/is-there-a-simple-way-in-r-to-extract-only-the-text-elements-of-an-html-page

在这里您可以找到更多说明:https ://stackoverflow.com/questions/1844829/how-can-i-read-and-parse-the-contents-of-a-webpage-in-r