数据挖掘 - 阻塞和聚类的区别？ - 吾爱随笔录

阻塞和集群有什么区别？

据我所知，聚类起源于机器学习分支，是指以“我们和他们”的方式将数据点分组在一起的方法：同一聚类中的点是相关的，不同聚类中的点不相关。

然而，阻塞似乎来自统计数据，后来在数据分析中出现。我主要在记录链接中遇到了阻塞/索引等，它用于在分析数据之前将数据划分为块。

甚至可以在 Record Linkage 中同时使用阻塞和集群方法。但是，我发现，我还不太了解它们的区别，因此希望对此事有不同的看法。

到目前为止我的解释：阻塞和集群的目标是不同的：

阻塞用于丢弃潜在的不必要数据——区分重要数据和非重要数据。

然而，聚类确实做出了区分，所有数据点都很重要。用于分类目的 - 识别所有数据。