你能解释一下Jaccard 相似系数和逐点互信息 (PMI)度量之间的区别吗?如果您可以添加一些示例,那就太好了。
Jaccard相似系数与逐点互信息系数
机器算法验证
可能性
距离函数
互信息
关联度量
杰卡相似度
2022-03-30 03:37:47
2个回答
这两个是完全不同的。尽管如此,让我们尝试“把它们带到一个共同点”,看看有什么不同。Jaccard 和 PMI 都可以扩展到连续数据情况,但我们将观察原始二进制数据情况。
使用 4 折表的 a,b,c,d 约定,如此处,
Y
1 0
-------
1 | a | b |
X -------
0 | c | d |
-------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.
我们知道。
让我们首先忘记“log”——因为 Jaccard 意味着没有对数。然后将 a,b,c,d 符号代入 PMI 公式得到:
其中“gm”是两个概率的几何平均值,X 和 Y 向量之间的落合。
因此,您可以看到 PMI(没有对数)是 Ochiai 系数,通过双向正(多事)数据的总体概率进一步“归一化”(或者我会说,去归一化)。
但是 Jaccard 和 Ochiai是可比的。和之间的潜在差异的强调不同。我已经在上面链接的答案“Ochiai”中描述了它。引用:
因为当只有一个项增长时,乘积(在 Ochiai 中看到)的增加比 sum(在 Jaccard 中看到)要弱,所以只有当两个比例(概率)都很高时,Ochiai 才会非常高,这意味着被认为是相似的Ochiai 这两个向量必须共享它们的属性/元素的大部分。简而言之,如果b和c不相等,落合就会抑制相似性。杰卡德没有。
补充最佳答案:
如果您关心这两个项目是否经常同时出现,您需要高 Jaccard 相似度。如果您关心这两个项目同时发生的机会比随机大得多,那么您想要高 PMI。
对于概率低且共现度适中的两个项目,Jaccard 的分数会非常低,而 PMI 可能会给出高分。