条件熵和互信息 - 聚类评估

数据挖掘 聚类 评估 信息论 互信息
2022-02-28 22:08:51

首先,我正在做聚类,我有我的数据的真实标签。为了评估,我使用每个预测聚类的熵值的加权平均值。在研究替代方案时,我也遇到了互信息作为类似的方法。根据我的数据,他们似乎给出了相似的结果。

然而,有一个问题让我感到困惑。

给定预测的集群集U和真正的集群V,互信息定义为:

I(U,V)=H(U)H(U|V)
或者,
I(U,V)=H(V)H(V|U)
如果我的数学是正确的,我使用的平均熵对应于条件熵项H(V|U)并试图将其最小化与最大化互信息一致。

我看不到加权平均熵与互信息有何不同,以及为什么我们需要熵项H(U)或者H(V). 感觉就像最小化一个条件熵就足够了。

换句话说,据我从方程中了解到,对真实或预测的集群本身具有高熵也会导致更高的互信息。这是否意味着互信息有利于同等大小的集群?

提前致谢。

1个回答

互信息确实有利于许多小型集群。花蜜这些往往是“纯”的。这就是为什么变体希望使用标准化互信息和调整互信息 (AMI) 来代替。

恩,NX;埃普斯,J。贝利,J. (2009)。“聚类比较的信息论测量”。第 26 届机器学习国际会议论文集 - ICML '09。页。1.doi:10.1145/1553374.1553511。