如果数据集高度不平衡,是否存在聚类问题?我有一个聚类任务,看起来有一个非常巨大的峰,其尾部覆盖了其他集群。有什么技术可以解决这个问题吗?
聚类中的类不平衡
机器算法验证
聚类
不平衡类
2022-03-22 09:25:02
2个回答
一般来说:是的,这很可能是有问题的。想象一下,您有许多未知但不同的类的集群。聚类通常使用样本之间的距离度量来完成。因此,许多方法隐含地假设集群共享某些属性,至少在某些边界内 - 集群之间的距离仅在某个最大值内发散,或者更可能集群扩展的规模仅在某个最大值内发散。如果您有一个突出的、主要且不均匀分散的类,这可能会出现问题,它在某种程度上影响了其他不那么突出和不均匀分散的类——这些类进一步在集群之间具有非常不同的距离。这可能会导致根本找不到您不那么突出的集群,因为它们例如被推离突出的集群(例如 K-means),或者可能最终位于略高于平均水平的区域突出的类(例如 SOM,在某种程度上)。但是,如果您的问题是这种情况,那么使用任何聚类方法进行聚类都可能非常困难。
关于可能的方法的两个想法:
如果您对类别流行度一无所知,那么更改数据/数据权重(例如,使用数据中观察到的密度进行二次抽样)可能会破坏聚类的目的(想象一下展平整个特征空间的极端情况,即意味着丢弃构建集群所需的信息)。但可能在某些情况下这是有意义的。
如果您对类流行度有一个粗略的了解,正如@hxd1011 所提到的,为您的集群/分布使用一些权重可能会有所帮助。我想调整流行率、使用抽样技术、估计流行率和数据中观察到的密度也可能是可能的(但请记住,当您使用不同类别的混合观察密度时,您的假设和简化可能不会完全正确,如答案的第一部分所述)。
我认为“尝试凝聚式的(单链接、完整链接、Ward 等)”可能是一个很好的答案
其它你可能感兴趣的问题