计算科学 - 什么是针对约 10,000 个约 30 维向量的高性能聚类算法？ - 吾爱随笔录

例如，我有一组实值向量

$S = \{v_1, v_2, ..., v_k\}$

$v_i = \begin{pmatrix} age_i \\ height_i \\ weight_i \\ ... \end{pmatrix}$

管他呢。每个向量有大约 30 个分量，并且 $k\approx 10,000$ . 向量未归一化。

两个目标：

有很多聚类算法可供选择。我可以灵活地定义集群的定义，但我确实想要“合理”的行为，如果 $N$ 不同于自然存在的簇数：

简单性和性能是首要任务。集群的定义是可以协商的。如果可以调整算法以指定某些组件在定义集群时“重要”，那就太好了，但这只是一个愿望。

对于此类数据，什么是快速、简单的聚类方法？