阻塞和聚类的区别?

数据挖掘 机器学习 聚类 大数据 描述性统计
2022-03-10 15:22:13

阻塞和集群有什么区别?

据我所知,聚类起源于机器学习分支,是指以“我们和他们”的方式将数据点分组在一起的方法:同一聚类中的点是相关的,不同聚类中的点不相关。

然而,阻塞似乎来自统计数据,后来在数据分析中出现。我主要在记录链接中遇到了阻塞/索引等,它用于在分析数据之前将数据划分为块。

甚至可以在 Record Linkage 中同时使用阻塞和集群方法。但是,我发现,我还不太了解它们的区别,因此希望对此事有不同的看法。

到目前为止我的解释:阻塞和集群的目标是不同的:

阻塞用于丢弃潜在的不必要数据——区分重要数据和非重要数据。

然而,聚类确实做出了区分,所有数据点都很重要。用于分类目的 - 识别所有数据。

1个回答

正如你提到的,他们的目标是不同的。在聚类中,我们尝试对数据进行分组,使它们具有相同的可变性。例如,将一家公司的客户分成不同的集群,不知何故,每个集群的成员在购买时都有相同的行为。

另一方面,在阻塞中我们试图减少可变性,以记录链接为例。