如何根据 Pandas 数据框中的 95% 标准获取重复行

数据挖掘 Python 熊猫
2022-02-13 09:45:14

例如,我有一个包含 70 列的数据框,并且想要获得 95% 匹配的重复记录(行)。为了获得 100% 的匹配,我们可以使用 duplicated() 但为了获得 95% 阈值的重复匹配需要做什么。

样本数据集:

在此处输入图像描述 在上面的数据集中,有 16 列,如果 15(95%) 相同,则应将其作为重复返回。

输出数据集:输出数据集将具有第 1、第 3 和第 4 行,因为第 1 和第 4 行是 100% 匹配,第 3 行是 95%(第 15 列值)匹配。第二行不会出现在输出中,因为 95% 的标准不匹配。 注意:如果有 15 列在 2 行之间匹配,则在 16 列中,它应该导致重复

提前致谢....

0个回答
没有发现任何回复~