数据挖掘 - 文本中聚类技能的不同方法 - 吾爱随笔录

考虑一个人才库，其中每个成员都有一些技能。其中一些人才作为潜在候选人被提交给订单，其中一个被选中。可以合理地假设提交的人才在他们的技能组合中有一些共同的优势（我们称之为一个部分），使他们有资格获得订单。示例部分是“前端网页设计师”或“小册子/冲刺设计师”。

考虑到提交给订单的所有人才的总技能集（比如 2-5 个，每个人说 10 个技能，所以总共 20-50 个技能），我正在寻找占主导地位的部分。然后，我正在寻找每个人才的主导部分。

我的计划是使用潜在狄利克雷分配（LDA），这样所有提交订单的人才的技能都是一个“文档”，其中包含一些片段或具有一定概率的“主题”。根据主题总数，可能会有一两个主导主题。然后，我将使用这个模型来预测每个人才的主导部分，其中个人人才技能集是一个“文档”，其中包含一些部分或“主题”。

我很好奇是否有人对我使用 LDA 或其他关于我如何去发现这些细分市场的想法有反馈？