我面临一个问题,我需要对大量数据进行聚类。众所周知,聚类算法的 O 复杂度可能非常高,我正在寻找减少算法运行时间的方法。
我想尝试几种不同的方法,例如预聚类(树冠聚类)或子空间聚类、相关聚类等。
然而,一些我没有听说过的事情,我想知道为什么——从我的数据集中简单地获取一个有代表性的样本,在其上运行聚类,并将这个模型推广到整个数据集是否可行?为什么/为什么不是一种可行的方法?谢谢!
我面临一个问题,我需要对大量数据进行聚类。众所周知,聚类算法的 O 复杂度可能非常高,我正在寻找减少算法运行时间的方法。
我想尝试几种不同的方法,例如预聚类(树冠聚类)或子空间聚类、相关聚类等。
然而,一些我没有听说过的事情,我想知道为什么——从我的数据集中简单地获取一个有代表性的样本,在其上运行聚类,并将这个模型推广到整个数据集是否可行?为什么/为什么不是一种可行的方法?谢谢!
我会得到一个足够大的随机/代表性样本并将其聚类。
要查看这样的样本是什么,您必须获取两个这样的样本并将它们聚类以获得聚类解决方案 c1 和 c2。如果 c1 和 c2 的匹配集群具有相同的模型参数,那么您可能具有代表性样本。
您可以通过查看 c1 和 c2 如何将绘制的数据分配给集群来匹配集群。
这绝对是可行的,只是有catch 22。
为了从您的数据集中获得这个具有代表性的样本,您必须从每个集群中进行抽样。但是,如果您已经可以从每个集群中采样,那么您已经知道它们,因此您不需要无监督学习。