我正在使用gensim库来计算文档之间的相似度,但它只使用余弦相似度。我想知道是否有办法使用 Jaccard 相似度或任何其他相似度度量来代替
是否可以在 gensim 文档相似度中使用 Jaccard 相似度而不是 Cosine 相似度?
数据挖掘
机器学习
数据挖掘
相似
gensim
余弦距离
2022-02-18 09:12:51
1个回答
如果您已经训练了一个 gensim 模型,该对象可以充当字典,为您提供矢量投影(通过https://radimrehurek.com/gensim/models/word2vec.html)
$ model['computer'] # raw numpy vector of a word
array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)
因此可以手动实现您选择的任何向量比较。通常选择 Cosign 相似性是因为与其他分组高维投影的方法相比,它的性能相对较好。
我可以设想实现 Jaccard Similarity 的方式是在每个文档的基础上识别一个关键词列表,并且在比较文档时,将同义词作为交叉点包含在内。
基于查看 gensim 文档比较文本 ( https://radimrehurek.com/gensim/similarities/docsim.html ),我不相信有本地实现。
其它你可能感兴趣的问题