聚类的精度和召回率?

机器算法验证 聚类 精确召回
2022-03-25 09:42:09

我对计算本文中提到的聚类精度和召回率感到困惑基于模型的重叠聚类,A Banerjee 等人,(第 5 页第 1 列的最后一段)。

假设,如果给定结果聚类指标矩阵C大小的n×k在哪里n是数据点的数量和k是集群的数量。一个数据点可以分配给多个集群。任何人都可以为我提供计算此结果聚类指标矩阵的精度和召回率的确切细节吗C论文中所述。假设真正的集群指标矩阵也是可用的,比如说True_C

3个回答

如果您想使用精度和召回率进行聚类,这并不总是用于评估聚类,这里有一个有用的链接,其中有一个很好的例子来说明如何找到它们进行聚类: http: //nlp.stanford.edu/IR -book/html/htmledition/evaluation-of-clustering-1.html

我将通过链接示例的相关部分来查找 TP、TN、FP、FN;必要时添加细节。如链接网站所述:

真阳性 (TP) 决策将两个相似的文档分配给同一个集群,真阴性 (TN) 决策将两个不同的文档分配给不同的集群。我们可以犯两种类型的错误。(FP)决策将两个不同的文档分配给同一个集群。(FN)决策将两个相似的文档分配给不同的集群。

考虑以下示例, 在此处输入图像描述

这里我们有三个实际的组:x、o 和菱形,我们试图将它们聚类成簇 1、簇 2 和簇 3。犯了一些错误。例如,簇 2 中包含一个 x、四个 o 和一个菱形。现在量化TP、FP、TN、FN。

我们将考虑所有的文档对,其中有N(N1)/2=136, 因为我们有N=17文件。

现在对于 TP+FP(所有正数),我们需要找出存在于同一簇中的所有 x、o 和菱形对(不一定匹配类型)。 在集群 1 中选择 2 对任何东西,等等。这给了我们(62)

TP+FP=(62)+(62)+(52)=40总正数

真正的阳性仅是相同类型的对。例如,簇 1 中的 x 对是这给了我们,(52)

TP=(52)+(42)+(32)+(22)=20

剩下40-20 FP。4020=20

现在是底片的总数,这不在我提供的链接中。总负数加上正数必须等于对的总数,因此所以总共有底片。PairstotalPostives=totalNegatives13640=96

FN 的数量可以通过查看应该组合在一起的对来找到,但不是。我会先做x。集群 1 有 5 个 x,每个与三个不匹配 ( ) 配对,而集群 2 有 1 个 x,与集群 3 中尚未考虑的两个不匹配 x 配对 ( )。o 是一样的。 )配对。现在是钻石。集群 2 有一颗钻石,与集群 3 中的 3 颗不匹配的钻石配对 ( )。把它们加起来,35=1521=214=413

FN=35+21+14+13=24

由于总负数为 96,因此必须有 96-24=72 个 TN。

最终的混淆矩阵是(根据网站):

在此处输入图像描述

正如 Karl 所说,精确度和召回率是:

在此处输入图像描述

有一个关于精确度和召回率的维基百科页面在定义上非常清楚。

在您提到的论文中,他们说:

为了评估聚类结果,对点对计算精度、召回率和 F-measure。对于在重叠聚类结果中共享至少一个聚类的每一对点,这些度量试图估计这一对在同一聚类中的预测对于数据中的潜在真实类别是否正确。精度计算为正确放入同一簇中的对的比例,召回是已识别的实际对的比例,F-measure 是精度和召回的调和平均值。

唯一可能棘手的是给定点可能出现在多个集群中。作者似乎查看了所有点对,例如 (x,y),并询问包含点 x 的集群之一是否也包含点 y。真正的肯定 (tp) 是事实情况和推断集群的情况。假阳性 (fp) 是指事实并非如此,但推断的集群是这种情况。假阴性 (fn) 是指事实确实如此,但推断的集群并非如此。

然后精度 = tp / (tp + fp) 和召回 = tp / (tp + fn)。

  1. 真阳性(TP)分配:当相似的成员被分配到同一个社区时。这是一个正确的决定。
  2. 真负(TN)分配:当不同的成员被分配到不同的社区时。这是一个正确的决定。
  3. 假阴性(FN)分配:当相似的成员被分配到不同的社区时。这是一个错误的决定。
  4. 误报(FP)分配:当不同的成员被分配到同一个社区时。这是一个错误的决定。

在此处输入图像描述

在此处输入图像描述

  • 参考社交数据挖掘。作者:Reza Zafarani Mohammad Ali Abbasi Liu Liu