数据挖掘 - 如何根据 Pandas 数据框中的 95% 标准获取重复行 - 吾爱随笔录

例如，我有一个包含 70 列的数据框，并且想要获得 95% 匹配的重复记录（行）。为了获得 100% 的匹配，我们可以使用 duplicated() 但为了获得 95% 阈值的重复匹配需要做什么。

样本数据集：

在上面的数据集中，有 16 列，如果 15(95%) 相同，则应将其作为重复返回。

输出数据集：输出数据集将具有第 1、第 3 和第 4 行，因为第 1 和第 4 行是 100% 匹配，第 3 行是 95%（第 15 列值）匹配。第二行不会出现在输出中，因为 95% 的标准不匹配。 注意：如果有 15 列在 2 行之间匹配，则在 16 列中，它应该导致重复

提前致谢....