测量具有相同基数的集合的相似性

数据挖掘 数据集 聚类 相似
2022-02-24 16:36:11

Jaccard 系数衡量有限样本集之间的相似性,定义为交集的大小除以样本集的并集大小。

我有 100 套所有相同的基数。我错误地将相似性度量计算为与集合中总元素的交集比率(即 100)。

这给出了与原始 Jaccard 公式不同的相似度值。

我想知道原始公式是否考虑了两个集合的并集来处理可能存在具有不同基数的集合的情况。

我认为虽然我的价值观在数字上有所不同,但它们代表了相同的想法。

如果有人可以验证/验证我想要做什么?

1个回答

是的,Jaccard 相似度得分被联合归一化以处理不同基数的集合。如果没有这种标准化(如果你只使用交集),非常小的集合总是会有非常低的分数。

当所有集合的基数相同时,任何两个集合的并集将是交集的直接函数(这很容易想象——随着两个集合的相交越来越多,它们的并集变得越来越小)。公式为:

union = 2 * cardinality - intersection

因此,您的 Jaccard 分数将是:

intersection / (200 - intersection)

如果你绘制这个,你会发现它和你所做的一样单调。