为什么不使用 KL 散度作为比较聚类的衡量标准?

机器算法验证 机器学习 聚类 参考 社交网络
2022-04-09 05:00:23

在社区检测的文献中,有各种基于信息论原则(标准化互信息,信息变化)的测量方法,用于比较分区。我想知道为什么 KL 散度在比较两个类似于集群的概率分布时不受欢迎。

2个回答

KL 散度假设您知道哪个集群是哪个标签。但是如果集群和类的数量不一样呢?如果数据具有这样的结构,一个好的聚类可能需要将一个类分成两部分。另外,KL 是不对称的。

NMI 密切相关,但由于它将每个集群与每个标签进行比较,因此您不会遇到将集群映射到类的问题。

OP 用“受欢迎程度”来表达他们的问题。这可能不是考虑使用 KL 散度 wrt 聚类的正确方法。事实上,KL 指标用于信息论和基于复杂性的集群算法,但评估此类例程的“流行度”将是困难的。

排列分布聚类就是这样一种例程。PDC 在几篇论文中都有描述。这是 PDC R 模块的链接,其中包含对 KL 散度使用的描述... https://cran.r-project.org/web/packages/pdc/pdc.pdf

然后是 Eamonn Keogh 的 SAX 和 iSAX 例程,它们类似于 PDC,但可能更“流行”... http://www.cs.ucr.edu/~eamonn/SAX.htm