数据挖掘 - 简历解析——使用机器学习从简历中提取技能 - 吾爱随笔录

数据挖掘机器学习 Python 文本挖掘主题模型

2021-09-15 10:33:46

我正在尝试从他/她的简历中提取员工的技能组合。我将简历以纯文本形式存储在数据库中。在这种情况下，我没有预定义的技能。我应该如何解决这个问题？

我可以想到两种方法：

使用无监督方法，因为我没有预定义的技能。我将使用主题建模从简历中提取技能，但如果我没记错的话，主题建模使用BOW方法，在这种情况下可能没有用，因为这些技能几乎不会出现一两次。（如果您能就主题建模向我提供更多启发，我将不胜感激）。
另一种方法是手动标记简历的技能并使其成为监督学习问题。但是我有大约 500 份简历，手动标记会非常繁琐且非常耗时。

欢迎任何建议。

谢谢。

1个回答

我不确定主题建模会在这里帮助您，因为它试图从文本中提取抽象主题。我担心简历可能太“枯燥”而不能很好地工作。

以下是我发现的一些可能有用的资源：

对于一些个人建议：

我将假设您不想手动标记这些简历，并将尝试解释我将如何首先进行。它可能不是最好的解决方案，因为其中有很多启发式方法，但它是一个主要旨在研究您的数据并获得一些洞察力的开始。

您可以查看文档的结构是否有帮助：您正在寻找的技能可能经常出现在具有特定标题的部分中。
您还可以使用地名词典，这是感兴趣的关键词列表，并将它们与口语（经常一起出现的词组）结合起来。例如，如果您的地名词典中出现了一个关键字，您可以使用 ngrams 查看它周围出现最多的单词，并将您的单个单词匹配转换为多单词技能（例如：机器学习（2grams）、自然语言处理（3克）等）
一旦你有了一个有趣的关键词列表，你就可以转向 ML 并尝试词向量，也许使用word2vec，并围绕你感兴趣的词构建向量。如果出现新技能，它们的向量可能与您定义的向量相似（抱歉这里有点不清楚，我对 word2vecs 的工作原理只有模糊的了解）。

这不是灵丹妙药，但这应该可以帮助您入门。

祝你好运！

其它你可能感兴趣的问题