我是否需要删除重复的对象才能对对象进行聚类分析?

机器算法验证 聚类 k-均值 层次聚类
2022-04-11 21:13:48

我正在进行集群分析,我想知道是否可以从数据集中删除重复项 - 以提高性能。

我处理对象在行中而变量在列中的表。

如果两行相同,是否可以删除它们?这会改变结果吗?

我正在与hierarchical clusteringk-means/k-modes

2个回答

它改变了结果。使用 k-means 这应该很容易看出:0、0 和 1 的均值与 0 和 1 不同。通常对于层次聚类也是如此,但它取决于链接标准,例如,完全链接不应该受到影响。

一般来说,我会主张将其保留。重复表明这些是变量值的特别可能的组合,因此应该获得更高的权重。这意味着具有相同值的观察不会变得多余。

你真的对这两种算法有性能问题吗?

如果删除重复项,则需要为数据添加权重,否则结果可能会改变(我猜除了单链接聚类)。

如果您的数据集几乎没有重复,这可能会花费您一些运行时间。

如果您的数据集有很多重复项,则可以大大加快处理速度以合并它们并改用权重如果每个对象平均有 10 个副本,并且使用二次运行时的算法,则加速可以是 100 倍。这是实质性的,非常值得努力合并重复项。