例如,我有一组实值向量
管他呢。每个向量有大约 30 个分量,并且. 向量未归一化。
两个目标:
- 计算数据集自然形成的簇数,
- 任意给定, 选择集合中的代表(或构建代表向量)跨越集群。
有很多聚类算法可供选择。我可以灵活地定义集群的定义,但我确实想要“合理”的行为,如果不同于自然存在的簇数:
- 如果 N 太小,则应首先表示最大、最密集的簇,
- 如果 N 太大,额外的代表应该坐在大集群附近而不是其他任何地方,并且额外的代表不应该全部聚集在同一个地方。
简单性和性能是首要任务。集群的定义是可以协商的。如果可以调整算法以指定某些组件在定义集群时“重要”,那就太好了,但这只是一个愿望。
对于此类数据,什么是快速、简单的聚类方法?