我有一个包含大约 10000 个未标记职位(主要是非常短的职位)的数据集,例如head of mobile或lead iOS developer。
我想以两种不同的方式对这些职位进行分类:
第一个分类是根据其所代表的工作类型(即营销、IT、医疗保健、法律......)对职位进行排序
第二个分类是关于特定工作的资历水平(即主管、经理、助理、实习生......)
我尝试了一种基于 Word2Vec 的方法(向量取自 Google Word2Vec 集):
- 我清理并阻止了职位名称
- 我创建了一个表示职位的向量作为组成它的单词的平均向量
- 我创建了一个代表目标值的向量列表(
+executive, +chief, -assistant例如,执行可能是平均向量) - 找到职位向量和目标向量之间的最小余弦距离。
虽然这种方法得到了不错的结果(大约 70-80% 的准确率),但对于我计划做的任务来说还不够。
所以我想知道是否可以使用更好的方法(除了手动标记数据并使用它来训练一些算法)