是否存在不适用于度量空间的重复数据删除算法?

数据挖掘 数据集 大数据 算法 数据清理
2022-02-19 04:58:24

最近我对数据清理过程特别是记录链接感兴趣。

到目前为止,我阅读了有关去重数据集的确定性和概率性方法,以及在较小程度上还了解了机器学习方法。令我震惊的是,所有算法的关键部分基本上都引入了度量空间。通过度量空间,每两个数据点都可以分配一个距离。距离基本上是衡量这两个数据点与另一个数据点相关程度的衡量标准。

但是我确实想知道,是否还有不同种类的算法不按照这个原则工作?

1个回答

一种选择是指纹识别如果两个物体有相同的指纹,它们很可能是同一个物体。根据所使用的技术,指纹无法分辨近似重复。