聚类的精度和召回率?
如果您想使用精度和召回率进行聚类,这并不总是用于评估聚类,这里有一个有用的链接,其中有一个很好的例子来说明如何找到它们进行聚类: http: //nlp.stanford.edu/IR -book/html/htmledition/evaluation-of-clustering-1.html
我将通过链接示例的相关部分来查找 TP、TN、FP、FN;必要时添加细节。如链接网站所述:
真阳性 (TP) 决策将两个相似的文档分配给同一个集群,真阴性 (TN) 决策将两个不同的文档分配给不同的集群。我们可以犯两种类型的错误。(FP)决策将两个不同的文档分配给同一个集群。(FN)决策将两个相似的文档分配给不同的集群。
考虑以下示例,
这里我们有三个实际的组:x、o 和菱形,我们试图将它们聚类成簇 1、簇 2 和簇 3。犯了一些错误。例如,簇 2 中包含一个 x、四个 o 和一个菱形。现在量化TP、FP、TN、FN。
我们将考虑所有的文档对,其中有, 因为我们有文件。
现在对于 TP+FP(所有正数),我们需要找出存在于同一簇中的所有 x、o 和菱形对(不一定匹配类型)。 在集群 1 中选择 2 对任何东西,等等。这给了我们
总正数
真正的阳性仅是相同类型的对。例如,簇 1 中的 x 对是。这给了我们,
剩下40-20 FP。
现在是底片的总数,这不在我提供的链接中。总负数加上正数必须等于对的总数,因此。所以总共有底片。
FN 的数量可以通过查看应该组合在一起的对来找到,但不是。我会先做x。集群 1 有 5 个 x,每个与三个不匹配 ( ) 配对,而集群 2 有 1 个 x,与集群 3 中尚未考虑的两个不匹配 x 配对 ( )。o 是一样的。 )配对。现在是钻石。集群 2 有一颗钻石,与集群 3 中的 3 颗不匹配的钻石配对 ( )。把它们加起来,
由于总负数为 96,因此必须有 96-24=72 个 TN。
最终的混淆矩阵是(根据网站):
正如 Karl 所说,精确度和召回率是:
有一个关于精确度和召回率的维基百科页面在定义上非常清楚。
在您提到的论文中,他们说:
为了评估聚类结果,对点对计算精度、召回率和 F-measure。对于在重叠聚类结果中共享至少一个聚类的每一对点,这些度量试图估计这一对在同一聚类中的预测对于数据中的潜在真实类别是否正确。精度计算为正确放入同一簇中的对的比例,召回是已识别的实际对的比例,F-measure 是精度和召回的调和平均值。
唯一可能棘手的是给定点可能出现在多个集群中。作者似乎查看了所有点对,例如 (x,y),并询问包含点 x 的集群之一是否也包含点 y。真正的肯定 (tp) 是事实情况和推断集群的情况。假阳性 (fp) 是指事实并非如此,但推断的集群是这种情况。假阴性 (fn) 是指事实确实如此,但推断的集群并非如此。
然后精度 = tp / (tp + fp) 和召回 = tp / (tp + fn)。