例如,我有一个包含 70 列的数据框,并且想要获得 95% 匹配的重复记录(行)。为了获得 100% 的匹配,我们可以使用 duplicated() 但为了获得 95% 阈值的重复匹配需要做什么。
样本数据集:
在上面的数据集中,有 16 列,如果 15(95%) 相同,则应将其作为重复返回。
输出数据集:输出数据集将具有第 1、第 3 和第 4 行,因为第 1 和第 4 行是 100% 匹配,第 3 行是 95%(第 15 列值)匹配。第二行不会出现在输出中,因为 95% 的标准不匹配。 注意:如果有 15 列在 2 行之间匹配,则在 16 列中,它应该导致重复
提前致谢....