使用机器学习进行模式匹配

数据挖掘 机器学习
2022-02-23 17:00:27

我面临以下将另一家公司(数据库)的数据集成到内部公司的问题。它是关于个人核心数据的,即姓名地址等。我想以一种自动方式对这些键进行映射。我已经阅读了有关 HMM 的信息。但是,我仍在收集一些可行和标准方法的信息。因此,我正在寻找一些参考来描述可能的解决方案。

1个回答

Michael Stonebraker创办了一家声称可以做到这一点的公司,使用机器学习进行模式匹配:

https://www.tamr.com/

他们的网站不再详细介绍他们的方法,但本文讨论了他们使用的一些技术,例如:

  • 使用三元余弦相似度对属性名称执行模糊字符串比较。
  • 将一列数据视为文档,并使用标准全文解析器标记其值。然后,测量列之间的 TF-IDF 余弦
    相似度。此方法适用于文本字段。
  • 使用最小描述长度 (MDL) 来比较两个属性的值。
  • 计算两列数据的交集大小与其并集大小的比率。此方法非常适合
    具有少量值的分类字段。
  • 计算一对包含数值的列的 Welch t 检验,并获得从同一分布中抽取这些列的概率。