我正在寻找对一组 10 维点进行 k 均值聚类。问题:有点。
我正在寻找最大集群的中心和大小(比如说 10 到 100 个集群);我不关心每个点最终进入哪个集群。具体使用 k-means 并不重要;我只是在寻找类似的效果,任何近似的 k 均值或相关算法都会很棒(minibatch-SGD 均值,...)。由于 GMM 在某种意义上与 k-means 是相同的问题,因此对相同大小的数据进行 GMM 也很有趣。
在这种规模下,对数据进行二次抽样可能不会显着改变结果:使用 1/10000 的数据样本找到相同的前 10 个集群的几率非常高。但即便如此,这也是一个位于/超出易处理边缘的点问题。