集群验证的信息变化 (VI) 度量背后的直觉是什么?

机器算法验证 r 聚类 验证 直觉
2022-02-28 11:23:12

对于像我这样的非统计学家来说,即使在阅读了 Marina Melia 的相关论文“比较聚类 - 基于信息的距离”(多元分析杂志,2007 年)之后,也很难捕捉到VI度量(信息的变化)的概念。事实上,我不熟悉那里的许多集群术语。

下面是一个 MWE,我想知道输出在使用的不同指标中意味着什么。我在 R 中有这两个集群,并且 id 的顺序相同:

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

现在根据VI以及其他指标/指数以及它们在文献中出现的时间顺序进行比较。

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

如您所见,该VI值与其他所有值不同。

  • 这个值说明了什么(以及它与下图有什么关系)?
  • 考虑这个值低或高的指导方针是什么?
  • 是否定义了任何指导方针?

在尝试报告此类结果时,也许该领域的专家可以为像我这样的外行提供一些明智的描述。如果有人也为其他指标提供指导,我将不胜感激(何时考虑值的大小,即与两个集群之间的相似性有关)。

我已经在这里这里阅读了相关的 CV 线程,但仍然无法掌握背后的直觉VI有人可以用简单的英语解释一下吗?

下图是上述论文中关于VI.

在此处输入图像描述

2个回答

您需要意识到措施可能有不同的解释。

从你的情节来看,VI是好的。

1 - 0.2451685 = 0.7548315

这更符合其他措施。

但是,请注意,这些措施中的大多数衡量的是不同的东西

没有理由假设仅仅因为一个度量是 0.8,另一个也应该是 0.8

如您所知,VOI 表示信息的变化,当您达到“0.2451685”时,这意味着两个选定集群之间的变化很小并且它们具有良好的相似性。