我sklearn在 6 维超平面(使用 6 个特征)上约 350k 个数据点的聚合数据集上运行 K-means 算法(使用实现)。
我想做同样的事情,但在我的数据集的“非聚合”版本中,这是使用相同 6 个特征的 ~1b 数据点
我知道这对 K-means 来说是一项非常繁重的任务,数据点的数量太大了,尽管维度的大小非常小。
除了 mini batch K-means 之外,还有其他算法可以帮助我完成这项任务吗?
我sklearn在 6 维超平面(使用 6 个特征)上约 350k 个数据点的聚合数据集上运行 K-means 算法(使用实现)。
我想做同样的事情,但在我的数据集的“非聚合”版本中,这是使用相同 6 个特征的 ~1b 数据点
我知道这对 K-means 来说是一项非常繁重的任务,数据点的数量太大了,尽管维度的大小非常小。
除了 mini batch K-means 之外,还有其他算法可以帮助我完成这项任务吗?
我不知道是否有其他聚类方法可以处理这么多的数据,但是对于 K-means,我建议这样做:
这比在整个数据上运行 K-means 过程效率更高,因为在第二阶段质心是固定的,算法不必迭代更新它们。