我有一种情况,我必须对 word2vec 向量进行聚类(一个非常大的语料库上的 200 个长度维度向量)。我决定使用基于密度的聚类(DBSCAN、HDBSCAN),因为我的数据集噪声非常高,我不希望它成为我的集群的一部分。我对余弦距离的了解有限,但我发现基于密度的聚类算法没有使用余弦距离的直接实现(pairwise_distance计算太占用内存)。
我的问题是我可以使用 L2 归一化来归一化 Word2vecnorm_data = normalize(vector_array, norm='l2')向量吗?
当数据集中有噪音时,有人可以建议任何其他更好的技术来聚类词向量吗?