使用 Affinity Propagation 集群 doc2vec

数据挖掘 scikit-学习 聚类 word2vec gensim 特纳
2022-03-17 09:43:52

我想使用亲和力传播对我的文档向量(doc2vec)进行聚类。

但是,如果我应该使用余弦相似度或余弦距离来聚类我的文档向量,我只是感到困惑。目前,我正在使用余弦相似度进行亲和传播聚类。因此,我的第一个问题是;

使用余弦相似度对我的 doc2vec 文档向量进行聚类是否正确?

此外,我想使用 t-sne 可视化我的集群结果。但是,我看到 t-sne 需要距离矩阵作为输入。因此,我的第二个问题是;

对 t-sne 使用距离矩阵(余弦距离)是否正确,而我使用余弦相似度进行聚类?

如果需要我的代码,我也可以发布它。

请帮我。

1个回答

尽管使用不同的方法,但它们都将距离转换回相似度。如果我没记错的话,它们也会对距离进行平方。

对于余弦距离的最常见变体,这可能是有问题的,它已经是平方距离。因此,修改方法以便能够直接处理相似性可能是一个好主意。但是您可能需要为此修改源代码(并了解方法!)