我正在进行集群分析,我想知道是否可以从数据集中删除重复项 - 以提高性能。
我处理对象在行中而变量在列中的表。
如果两行相同,是否可以删除它们?这会改变结果吗?
我正在与hierarchical clustering和k-means/k-modes
我正在进行集群分析,我想知道是否可以从数据集中删除重复项 - 以提高性能。
我处理对象在行中而变量在列中的表。
如果两行相同,是否可以删除它们?这会改变结果吗?
我正在与hierarchical clustering和k-means/k-modes
它改变了结果。使用 k-means 这应该很容易看出:0、0 和 1 的均值与 0 和 1 不同。通常对于层次聚类也是如此,但它取决于链接标准,例如,完全链接不应该受到影响。
一般来说,我会主张将其保留。重复表明这些是变量值的特别可能的组合,因此应该获得更高的权重。这意味着具有相同值的观察不会变得多余。
你真的对这两种算法有性能问题吗?
如果删除重复项,则需要为数据添加权重,否则结果可能会改变(我猜除了单链接聚类)。
如果您的数据集几乎没有重复,这可能会花费您一些运行时间。
如果您的数据集有很多重复项,则可以大大加快处理速度以合并它们并改用权重。如果每个对象平均有 10 个副本,并且使用二次运行时的算法,则加速可以是 100 倍。这是实质性的,非常值得努力合并重复项。