我被分配了以下任务:
我得到了 1,000,000 个数据点,并被要求创建一种距离矩阵并对行进行聚类。所以这个矩阵是 1,000,000 x 1,000,000,这对于我可怜的 8GB RAM 来说显然是太大了。
我想请教一些有关如何处理此类数据的提示。
我想随机选择大约 100,000 个数据点并将它们的距离聚类,而不是希望它们代表整个数据。即使这样,这似乎也是一项艰巨的任务。
那么什么样的聚类方法可以在这里工作呢?如果我不能一次将所有数据提供给通常可以处理大量数据的算法,例如层次聚类或 DBscan,我还有哪些选择?