数据挖掘 - 抽样是降低复杂性的有效方法吗？ - 吾爱随笔录

数据挖掘聚类采样

2021-10-05 18:54:15

我面临一个问题，我需要对大量数据进行聚类。众所周知，聚类算法的 O 复杂度可能非常高，我正在寻找减少算法运行时间的方法。

我想尝试几种不同的方法，例如预聚类（树冠聚类）或子空间聚类、相关聚类等。

然而，一些我没有听说过的事情，我想知道为什么——从我的数据集中简单地获取一个有代表性的样本，在其上运行聚类，并将这个模型推广到整个数据集是否可行？为什么/为什么不是一种可行的方法？谢谢！

2个回答

我会得到一个足够大的随机/代表性样本并将其聚类。

要查看这样的样本是什么，您必须获取两个这样的样本并将它们聚类以获得聚类解决方案 c1 和 c2。如果 c1 和 c2 的匹配集群具有相同的模型参数，那么您可能具有代表性样本。

您可以通过查看 c1 和 c2 如何将绘制的数据分配给集群来匹配集群。

这绝对是可行的，只是有catch 22。

为了从您的数据集中获得这个具有代表性的样本，您必须从每个集群中进行抽样。但是，如果您已经可以从每个集群中采样，那么您已经知道它们，因此您不需要无监督学习。

其它你可能感兴趣的问题