文本中聚类技能的不同方法

数据挖掘 机器学习 数据挖掘 nlp 文本挖掘
2021-09-29 06:32:01

考虑一个人才库,其中每个成员都有一些技能。其中一些人才作为潜在候选人被提交给订单,其中一个被选中。可以合理地假设提交的人才在他们的技能组合中有一些共同的优势(我们称之为一个部分),使他们有资格获得订单。示例部分是“前端网页设计师”或“小册子/冲刺设计师”。

考虑到提交给订单的所有人才的总技能集(比如 2-5 个,每个人说 10 个技能,所以总共 20-50 个技能),我正在寻找占主导地位的部分。然后,我正在寻找每个人才的主导部分。

我的计划是使用潜在狄利克雷分配(LDA),这样所有提交订单的人才的技能都是一个“文档”,其中包含一些片段或具有一定概率的“主题”。根据主题总数,可能会有一两个主导主题。然后,我将使用这个模型来预测每个人才的主导部分,其中个人人才技能集是一个“文档”,其中包含一些部分或“主题”。

我很好奇是否有人对我使用 LDA 或其他关于我如何去发现这些细分市场的想法有反馈?

1个回答

您可能需要考虑预处理 - 将相同类型人才的不同措辞转换为相同措辞。例如,机器学习方面的人才在 Coursera 工作站点被称为数据科学家,在 Udacity 工作站点被称为数据工程师或数据分析师。这种预处理在概念上类似于词干提取。