我可以使用 Jaccard 索引来计算集合和多集合之间的相似度吗?
据我所知,Jaccard 定义为交集的大小除以样本集的并集大小,
即
现在,如果我有一个集合, 和一个多重集,
如何使用 Jaccard 索引来考虑重复?
我可以使用 Jaccard 索引来计算集合和多集合之间的相似度吗?
据我所知,Jaccard 定义为交集的大小除以样本集的并集大小,
即
现在,如果我有一个集合, 和一个多重集,
如何使用 Jaccard 索引来考虑重复?
您可以使用Generalized Jaccard Index,并假设集合实际上是一个多重集:
如果和是两个具有实数的向量,那么它们的 Jaccard相似系数定义为
在这里,您可以将“vector”读作“multiset”,而x_i是multiset \mathbf x中元素i的计数。
你想如何考虑重复?我缝了几种方法可以做到:
但我会说这取决于你想要做什么以及你如何解决你的问题。