多类多标签分类的真阳性、假阴性、真阴性、假阳性定义?

机器算法验证 机器学习 分类 精确召回 多级 数据库扫描
2022-04-05 00:20:36

我正在尝试将一些评估指标应用于几种聚类方法。我认为我基于多类混淆矩阵了解它们,将行视为实际类,将列视为预测的集群:

  • TP 将是主对角线中的值。
  • 每个类的 FN 将是相应行中除 (TP) 之外的所有值的总和。
  • 每个类的 FP 将是对应列中所有值的总和,不包括主对角线元素 (TP)。
  • 每个类的 TN 将是混淆矩阵的所有值的总和,不包括该类的行和列。

参考:

然而......当我试图计算兰德指数时,根据这本书,Introduction to Information Retrieval和它给出的例子,我发现他们正在考虑rand index的术语a,b,c和d分别为 TP、FP、FN 和 TN。如果我们考虑到这些术语的实际定义以及如何在混淆矩阵中获得 TP、FP、FN 和 TN,我找不到它们之间的关系,此外他们正在考虑所有类的所有这些。

此外,然后他们根据这些 TP、FP、FN 和 TN 计算精度和召回率......所以这对我来说毫无意义,因为他们似乎给出了关于所有集群的整体精度和召回率的解决方案。

编辑:如何计算多类分类的精度和召回率不是问题(我认为我已经了解如何计算它们关于我的解释和我附加的第一个链接)。我对我之前附上的“聚类评估”部分中的 TP、TN、FN 和 FP 的书(检查第二个链接)给出的定义感到困惑,我所有的问题都与,确切地说,书。

总结一下,与书有关,

  • 这些 FP、TN、FN 和 TP 定义是否相同(书中给出的定义以及我在线程第一部分中评论过的其他定义)?

  • 这些精度和召回是所有数据聚类的整体解决方案,而不是为每个类提供一个(我不知道关于这些指标的整体解决方案是否有意义)?

  • 是准确度=兰德指数吗?

有3个问题,但都与主题相关。

PS:所有编辑的部分都用斜体表示,最重要的部分和问题用粗体表示。我希望它能阐明对我的问题的怀疑

0个回答
没有发现任何回复~