我正在尝试为数据质量问题找到解决方案 - 具体而言,确定不同数据集中的哪些项目用于表示相同的事物。
例如,假设我们是一家零售商,我们买断了其他几家零售商。在这个过程中,我们也得到了他们的系统和数据库。这可能会导致一些重叠——不同的系统可以以不同的方式表示相同的项目、客户等,但没有单一的唯一标识符。
为了得出“唯一”实体的单一视图,最好的方法是确定哪些行在数据集中代表相同的事物?
我已经完成了机器学习课程,并且我了解最低限度。我相信解决这个问题需要一个聚类算法,但是什么类型呢?我可能正在处理数据中的大量特征——维度、姓名、日期、联系方式——其中一些可能需要更高的匹配“权重”。
示例(项目):
A:ABC 笔记本,大号,发布时间:2018 年 2 月 20 日,150 毫米 x 100 毫米。
B: 笔记本 (ABC), L, 日期: 18/02/2018, 150mm x 100mm
我希望这些被视为同一个项目。
示例(客户):
A: Doe, Jane, DOB 1970-06-23, 123 ML Ave, F
B: John Doe, DOB 1971-04-33, 123 ML Avenue, M
C:J. Doe,71 年出生
我希望 B 和 C 被识别为同一个人,但不是 A。
对于这种情况,我不希望提出 100% 准确度的东西,但我希望能够提出一个(狭窄的)可能匹配的列表,以便有人可以检查。
有人可以指出我正确的方向吗?有什么我应该看的案例研究吗?