什么是针对约 10,000 个约 30 维向量的高性能聚类算法?

计算科学 线性代数 机器学习 统计数据 聚类
2021-12-09 20:04:15

例如,我有一组实值向量

S={v1,v2,...,vk}

vi=(ageiheightiweighti...)

管他呢。每个向量有大约 30 个分量,并且k10,000. 向量未归一化。

两个目标:

  • 计算数据集自然形成的簇数,
  • 任意给定N, 选择N集合中的代表(或构建代表向量)跨越集群。

有很多聚类算法可供选择。我可以灵活地定义集群的定义,但我确实想要“合理”的行为,如果N不同于自然存在的簇数:

  • 如果 N 太小,则应首先表示最大、最密集的簇,
  • 如果 N 太大,额外的代表应该坐在大集群附近而不是其他任何地方,并且额外的代表不应该全部聚集在同一个地方。

简单性和性能是首要任务。集群的定义是可以协商的。如果可以调整算法以指定某些组件在定义集群时“重要”,那就太好了,但这只是一个愿望。

对于此类数据,什么是快速、简单的聚类方法?

0个回答
没有发现任何回复~