我有一个 NLP 问题陈述,我使用 Word2Vec 嵌入预训练模型将关键文本转换为向量,然后在一组术语上运行 k-means 聚类以获得最终模型k
对于不同的术语集,我会开发一个不同的模型,并将其存储到磁盘中。
我的问题是,如果有一个新术语,我希望将它分类为它应该从所有模型中指向哪个集群,我可以遵循以下方法吗?
- 将所有模型加载到内存并获取它们的聚类中心。
- 基于与之前相同的预训练模型获取新词的向量。
- 获取从每个集群中心到新向量的距离,并且可以将最近的那个视为获胜集群
我想知道这种方法的可能缺点是什么。
我的假设是,由于向量空间与预训练模型定义的相同,因此聚类中心将位于同一空间中。