使用机器学习进行数据匹配

数据挖掘 机器学习 模糊逻辑
2021-09-28 20:00:58

我有大约 4000 条客户记录和 6000 条用户记录,大约 3000 条客户记录匹配,剩下 1000 条不匹配的客户。我已经使用 Levenshtein 和 Hamming 创建了一个模糊匹配算法,并为某些属性添加了权重,但我希望能够匹配剩余的记录而无需手动执行此操作。理想情况下,我想实现一种算法来获取客户和用户并输出匹配/不匹配。但是,我不需要用真底片训练吗?有没有一种算法可以只用 1 个标签进行训练?谢谢

1个回答

您可以通过获取 3000 条客户记录中的一条并将其与任何已知不匹配的用户记录配对来获得一个反面示例。这样,您可以获得3000正面和3000×5999底片。然后,您可以在整个训练集上训练一个布尔分类器。这可能比仅对正面使用一类分类更好。

更好的方法可能是使用技术来学习排名如果c是已知与用户记录匹配的客户记录u, 和u是任何其他用户记录(其中c不匹配),那么你希望你的分类器对这对进行排名(c,u)比......高(c,u). 这样就可以获得3000×5999这样的排名对,并尝试训练一个分类器来学习排名,然后使用它为 1000 个客户记录中的每一个找到最佳匹配。