有哪些方法可以合并来自不同来源的数据?有没有软件框架?

数据挖掘 数据挖掘 数据清理
2022-03-11 04:49:41

是否有任何软件库或框架允许定期合并来自不同来源的数据?据我了解,它应该存储和支持用于清理和重新格式化来自特定来源的数据的不同类型的规则,因为从我的角度来看,这是唯一的方法。

示例:

Source 1: New Great Sneakers NGS1
Source 2: ngs1 sneakers

所以它应该在应用规则后合并:convert to lower case -> find some pattern 'NGS*' -> be sure that a number after pattern 'NGS' is the same.

这是解决问题的某种天真的方法。有没有更好的方法来定期执行此类任务?

2个回答

该问题通常称为记录链接

记录链接有许多方法和软件选项。在您的示例中,可以使用条件逻辑和正则表达式来完成。

当您处理需要合并的相似字符串时,您可以查看字符串距离指标

有许多包/库,例如用于 RPython的包/库,它们处理合并相似的字符串。但是,我认为没有现成的解决方案可以(可靠)全自动方式进行模糊字符串匹配或记录链接。