简历解析——使用机器学习从简历中提取技能

数据挖掘 机器学习 Python 文本挖掘 主题模型
2021-09-15 10:33:46

我正在尝试从他/她的简历中提取员工的技能组合。我将简历以纯文本形式存储在数据库中。在这种情况下,我没有预定义的技能。我应该如何解决这个问题?

我可以想到两种方法:

  1. 使用无监督方法,因为我没有预定义的技能。我将使用主题建模从简历中提取技能,但如果我没记错的话,主题建模使用BOW方法,在这种情况下可能没有用,因为这些技能几乎不会出现一两次。(如果您能就主题建模向我提供更多启发,我将不胜感激)。

  2. 另一种方法是手动标记简历的技能并使其成为监督学习问题。但是我有大约 500 份简历,手动标记会非常繁琐且非常耗时。

欢迎任何建议。

谢谢。

1个回答

我不确定主题建模会在这里帮助您,因为它试图从文本中提取抽象主题。我担心简历可能太“枯燥”而不能很好地工作。

以下是我发现的一些可能有用的资源:

  • 简历解析器
  • 对这篇文章的回复,为您提供了一些文本挖掘基础知识(如何处理文本数据,对其执行哪些操作等,正如您所说,您之前没有这方面的经验)
  • 这篇关于技能提取的论文,我没看过,但它可以给你一些想法

对于一些个人建议:

我将假设您不想手动标记这些简历,并将尝试解释我将如何首先进行。它可能不是最好的解决方案,因为其中有很多启发式方法,但它是一个主要旨在研究您的数据并获得一些洞察力的开始。

  • 您可以查看文档的结构是否有帮助:您正在寻找的技能可能经常出现在具有特定标题的部分中。

  • 您还可以使用地名词典,这是感兴趣的关键词列表,并将它们与口语(经常一起出现的词组)结合起来。例如,如果您的地名词典中出现了一个关键字,您可以使用 ngrams 查看它周围出现最多的单词,并将您的单个单词匹配转换为多单词技能(例如:机器学习(2grams)、自然语言处理(3克)等)

  • 一旦你有了一个有趣的关键词列表,你就可以转向 ML 并尝试词向量,也许使用word2vec,并围绕你感兴趣的词构建向量。如果出现新技能,它们的向量可能与您定义的向量相似(抱歉这里有点不清楚,我对 word2vecs 的工作原理只有模糊的了解)。

这不是灵丹妙药,但这应该可以帮助您入门。

祝你好运 !