我知道互信息基本上是什么,但不太确定为什么以及如何在评估集群机制的背景下使用它?有人可以解释一下它背后的直觉吗?即,在聚类评估的情况下如何定义?
归一化互信息在聚类评估中的概念是什么?
数据挖掘
机器学习
nlp
聚类
可能性
评估
2022-02-19 05:30:29
1个回答
这是一种在存在类标签的情况下评估两个聚类的方法,因此不适用于类标签不可用的实际聚类问题。
假设您有类别标签,并且您想要评估一个聚类或(比较两个聚类)。最自然的想法是使用纯度分数。它只是检查带有集群的标签,当然,最好的情况是每个集群只包含一个类标签。这个分数虽然看起来很自然,但也有一个缺点。如果您认为每个集群只有一个数据点,那么纯度就最大化了!所以在计算纯度分数时应该注意聚类的数量。
下一个想法是计算互信息。Mutual Information 考虑了两个拆分:(1)根据集群拆分和(2)根据类标签拆分。然后它告诉你这两个分裂是如何相互一致的(他们分享了多少关于彼此的信息,或者如果你知道另一个,你怎么知道其中一个)。与纯度一样,当簇的数量很大时,MI 也会变大。
然后是 NMI,它针对上述现象进行了偏差校正,并将分数归一化在和之间(MI 没有上限)。
注意:我认为您的问题已在第一行得到回答。如果您想评估聚类,您不是在寻找需要标签的外部度量。为了回答的完整性,我只是解释了一下。
其它你可能感兴趣的问题