数据挖掘 - 条件熵和互信息 - 聚类评估 - 吾爱随笔录

首先，我正在做聚类，我有我的数据的真实标签。为了评估，我使用每个预测聚类的熵值的加权平均值。在研究替代方案时，我也遇到了互信息作为类似的方法。根据我的数据，他们似乎给出了相似的结果。

然而，有一个问题让我感到困惑。

给定预测的集群集 $U$ 和真正的集群 $V$ ，互信息定义为：

I (U, V) = H (U) - H (U | V)

$I(U,V) = H(U) - H(U|V)$ 或者，

I (U, V) = H (V) - H (V | U)

$I(U,V) = H(V) - H(V|U)$ 如果我的数学是正确的，我使用的平均熵对应于条件熵项

H (V | U)

$H(V|U)$ 并试图将其最小化与最大化互信息一致。

我看不到加权平均熵与互信息有何不同，以及为什么我们需要熵项 $H(U)$ 或者 $H(V)$ . 感觉就像最小化一个条件熵就足够了。

换句话说，据我从方程中了解到，对真实或预测的集群本身具有高熵也会导致更高的互信息。这是否意味着互信息有利于同等大小的集群？

提前致谢。