Jaccard相似系数与逐点互信息系数

机器算法验证 可能性 距离函数 互信息 关联度量 杰卡相似度
2022-03-30 03:37:47

你能解释一下Jaccard 相似系数逐点互信息 (PMI)度量之间的区别吗?如果您可以添加一些示例,那就太好了。

2个回答

这两个是完全不同的。尽管如此,让我们尝试“把它们带到一个共同点”,看看有什么不同。Jaccard 和 PMI 都可以扩展到连续数据情况,但我们将观察原始二进制数据情况。

使用 4 折表的 a,b,c,d 约定,如此

               Y
             1   0
            -------
        1  | a | b |
     X      -------
        0  | c | d |
            -------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.

我们知道Jaccard[X,Y]=aa+b+c

维基百科定义的PMIPMI[X,Y]=logP(X,Y)P(X)P(Y)

让我们首先忘记“log”——因为 Jaccard 意味着没有对数。然后将 a,b,c,d 符号代入 PMI 公式得到:

P(X=1,Y=1)P(X=1)P(Y=1)=a/na+bna+cn=an(a+b)(a+c)=a(a+b)(a+c)a+bna+cn=Ochiai[X,Y]gm[P(X),P(Y)]

其中“gm”是两个概率的几何平均值,X 和 Y 向量之间的落合aa+baa+c

因此,您可以看到 PMI(没有对数)是 Ochiai 系数,通过双向正(多事)数据的总体概率进一步“归一化”(或者我会说,去归一化)。

但是 Jaccard 和 Ochiai可比的。之间的潜在差异的强调不同我已经在上面链接的答案“Ochiai”中描述了它。引用:bc

因为当只有一个项增长时,乘积(在 Ochiai 中看到)的增加比 sum(在 Jaccard 中看到)要弱,所以只有当两个比例(概率)都很高时,Ochiai 才会非常高,这意味着被认为是相似的Ochiai 这两个向量必须共享它们的属性/元素的大部分。简而言之,如果bc不相等,落合就会抑制相似性。杰卡德没有。

补充最佳答案:

如果您关心这两个项目是否经常同时出现,您需要高 Jaccard 相似度。如果您关心这两个项目同时发生的机会比随机大得多,那么您想要高 PMI。

对于概率低且共现度适中的两个项目,Jaccard 的分数会非常低,而 PMI 可能会给出高分。