阻塞和集群有什么区别?
据我所知,聚类起源于机器学习分支,是指以“我们和他们”的方式将数据点分组在一起的方法:同一聚类中的点是相关的,不同聚类中的点不相关。
然而,阻塞似乎来自统计数据,后来在数据分析中出现。我主要在记录链接中遇到了阻塞/索引等,它用于在分析数据之前将数据划分为块。
甚至可以在 Record Linkage 中同时使用阻塞和集群方法。但是,我发现,我还不太了解它们的区别,因此希望对此事有不同的看法。
到目前为止我的解释:阻塞和集群的目标是不同的:
阻塞用于丢弃潜在的不必要数据——区分重要数据和非重要数据。
然而,聚类确实做出了区分,所有数据点都很重要。用于分类目的 - 识别所有数据。