我试图弄清楚如何计算集群算法的兰德指数,但我被困在如何计算真假阴性这一点上。
目前,我正在使用《信息检索简介》(Manning, Raghavan & Schütze, 2009)一书中的示例。在第 359 页,他们讨论了如何计算兰德指数。对于此示例,他们使用三个集群,并且集群包含以下对象。
- 啊啊啊
- bbbbc
- aaccc
我替换了对象(将原始符号替换为字母,但想法和数量保持不变)。我将给出书中的确切单词,以了解他们在说什么:
我们首先计算TP+FP。这三个聚类分别包含 6、6 和 5 个点,因此同一聚类中的“正面”或文档对的总数为:
TP + FP = + + = 15 + 15+ 10 = 40
其中,集群 1 中的 a 对、集群 2 中的 b 对、集群 3 中的 c 对和集群 3 中的 a 对是真阳性:
TP = + + + = 10 + 6 + 3 + 1 = 20
因此,FP = 40 - 20 = 20。
直到这里计算很清楚,如果我举其他例子,我会得到相同的结果,但是当我想计算假阴性和真阴性时,曼宁等人。陈述如下:
FN 和 TN 的计算方法类似,得到以下列联表:
列联表如下所示:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
我不清楚这句话:“FN 和 TN 的计算方式相似”,我不明白计算 TN 和 FN 需要哪些数字。我可以通过执行以下操作来计算表格的右侧:
TP + FP + FN + TN = = = 136
资料来源:http ://en.wikipedia.org/wiki/Rand_index
因此,FN + TN = 136 - TP + FP = 136 - 40 = 96,但这并不能真正帮助我弄清楚如何分别计算变量。特别是当作者说:“FN 和 TN 的计算方式相似”。我不明白怎么做。此外,当我查看其他示例时,他们通过查看每一对来计算列联表的每个单元格。
例如:http ://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
我的第一个问题,基于 Manning et al (2009) 的例子,如果你只知道 TP & NP,是否可以计算 TN 和 FN?如果是这样,根据给定的示例,类似的计算看起来如何?