我想比较 2 个长度为 43 的向量;它们的值为 0(不存在)和 1(存在)。我将称为同时存在 1 的情况,将和称为仅存在一个 1 而另一个值为 0 的情况。
data3$IDS 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0
0 0 0 0 0 0 0 0 0 0
data3$CESD 1 1 1 0 1 1 0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
1 1 1 1 1 1 1 1 1 1
我想了解这两个向量的相关性。阅读该主题,Jaccard索引似乎是要走的路。在这种特定情况下,Jaccard 索引将是(请注意,我使用的是 Wikipedia 上第二个数字旁边给出的公式): 在我的例子中:
使用:
library('clusteval')
cluster_similarity(data3$IDS, data3$CESD, similarity="jaccard", method="independence")
回报:
0.553429
我不太明白为什么,以及我犯的错误在哪里。
我不明白的另一件事是在高度重叠的情况下。想象一下和中只有值。这将导致 Jaccard 指数为。
但是J指数只定义在0到1之间。我的误解在哪里?