是否可以在 gensim 文档相似度中使用 Jaccard 相似度而不是 Cosine 相似度?

数据挖掘 机器学习 数据挖掘 相似 gensim 余弦距离
2022-02-18 09:12:51

我正在使用gensim库来计算文档之间的相似度,但它只使用余弦相似度。我想知道是否有办法使用 Jaccard 相似度或任何其他相似度度量来代替

1个回答

如果您已经训练了一个 gensim 模型,该对象可以充当字典,为您提供矢量投影(通过https://radimrehurek.com/gensim/models/word2vec.html

$ model['computer'] # raw numpy vector of a word array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)

因此可以手动实现您选择的任何向量比较。通常选择 Cosign 相似性是因为与其他分组高维投影的方法相比,它的性能相对较好。

我可以设想实现 Jaccard Similarity 的方式是在每个文档的基础上识别一个关键词列表,并且在比较文档时,将同义词作为交叉点包含在内。

基于查看 gensim 文档比较文本 ( https://radimrehurek.com/gensim/similarities/docsim.html ),我不相信有本地实现。