将职称分配给类别的合适方法

数据挖掘 机器学习
2022-03-04 14:43:18

我正在尝试找到一种自动将职称分配给类别的方法。

我的输入数据包含已分配给某个类别的职位,我希望能够将新职位分配给根据已分类的类别最适合的类别之一。

标题不规范。因此,一个头衔可能是已分配给类别 A 的“营销经理”,而应该分配的新头衔可能是“营销主管”。因此,标题到类别的简单 1:1 映射是不可能的。

我感谢任何指向正确方向的提示。

编辑

先决条件现在已经改变,所以我有特定的工作代码,而不是不同的职位。所以数据集看起来像这样:

category, jobCode, seniority, location
1, 1, CXO, us
1, 4, intern, us
2, 3, manager, uk
2, 4, intern, us

因此,现在的任务是提供一个函数,该函数使用组件 jobCode、seniority 和 location 来根据现有分配输出最合适的类别。

我使用 word2vec 将职称分配给 jobCodes。这是我应该扩展的东西。例如,只是连接工作代码的资历和位置并将它们视为 word2veb 的输入?

我想对于这类问题有一个更直接和更合适的算法。

1个回答

这是常规的文本分类,但文本很少(只有职位名称)。您可以从对职位名称中的单词进行简单的 one-hot 编码开始,然后应用您最喜欢的算法(例如朴素贝叶斯、决策树等)。对单词进行某种形式的规范化可能会更好(至少使用引理来匹配同一个单词的变体)。

词嵌入可能也是一个不错的选择,但我猜这只有在你有大量示例的情况下才会有所帮助。