机器算法验证 - 我是否需要删除重复的对象才能对对象进行聚类分析？ - 吾爱随笔录

机器算法验证聚类 k-均值层次聚类

2022-04-11 21:13:48

我正在进行集群分析，我想知道是否可以从数据集中删除重复项 - 以提高性能。

我处理对象在行中而变量在列中的表。

如果两行相同，是否可以删除它们？这会改变结果吗？

我正在与hierarchical clustering和k-means/k-modes

2个回答

它改变了结果。使用 k-means 这应该很容易看出：0、0 和 1 的均值与 0 和 1 不同。通常对于层次聚类也是如此，但它取决于链接标准，例如，完全链接不应该受到影响。

一般来说，我会主张将其保留。重复表明这些是变量值的特别可能的组合，因此应该获得更高的权重。这意味着具有相同值的观察不会变得多余。

你真的对这两种算法有性能问题吗？

如果删除重复项，则需要为数据添加权重，否则结果可能会改变（我猜除了单链接聚类）。

如果您的数据集几乎没有重复，这可能会花费您一些运行时间。

如果您的数据集有很多重复项，则可以大大加快处理速度以合并它们并改用权重。如果每个对象平均有 10 个副本，并且使用二次运行时的算法，则加速可以是 100 倍。这是实质性的，非常值得努力合并重复项。

其它你可能感兴趣的问题