我试图通过亲和力来聚类一些单词。使用 Word2Vec,我获得了可以用普通无监督方法聚类的每个单词的向量表示。
不过,在这些词中,我知道其中一些词的分类,例如我知道:
Colors组 ==> red, blue,yellow
Gender组 ==> man,woman
UNKNOWN==> shoes, brown, beautiful.
如示例所示,brown应归类为Color,但shoes和beautiful应为不同的集群。
我如何使用这些信息来创建一个半监督模型以对每个单词进行聚类?
虽然这个问题很笼统,但我实际上尝试在 Python 中创建一个程序,我尝试了 scikit 方法sklearn.semi_supervised.LabelSpreading和sklearn.semi_supervised.LabelSpreading.
但是,这些并不是我所需要的,因为它们只将已知标签分配给剩余的对象,这意味着我最终只会得到我的Colors和Gender组。