我有一个与集群相关的问题,我需要从工作域中集群技能集。
比方说,在简历中,候选人可以提到他们熟悉亚马逊 s3 存储桶。但是每个人都可以以任何方式提及它。例如,
- 亚马逊s3
- s3
- aws s3
对于人类来说,我们可以很容易地理解这三个是完全等价的。我不能使用 kmeans 类型的集群,因为它在很多情况下都会失败。
例如,
- 春天
- 弹簧框架
- 春季MVC
- 弹簧靴
这些可能属于错误的同一个集群。了解spring框架的候选人可能不知道sprint boot等,
基于嵌入/弓模型的单词相似度在这里失败了。
我有哪些选择?目前,我手动收集了很多 dict 格式的单词变体,key 是 root word,value 是那个 root word 的变体数组。
非常感谢任何帮助。