记录链接的深度学习方法

机器算法验证 机器学习 深度学习 记录链接
2022-03-24 06:25:46

记录链接 (RL) 是在数据集中查找跨不同数据源(例如,数据文件、书籍、网站和数据库)引用同一实体的记录的任务。当基于可能共享或不共享公共标识符(例如,数据库密钥、URI、国家识别号)的实体连接数据集时,记录链接是必要的,这可能是由于记录形状、存储位置或策展人风格或偏爱。(来源维基百科)

有几种方法可以解决记录链接问题,确定性、概率性、机器学习方法等。

我正在寻找解决记录链接用例的深度学习方法。

可以找到以下关于“使用卷积神经网络的实体解析”的工作 https://www.sciencedirect.com/science/article/pii/S1877050916324796

请分享有关如何使用深度学习解决记录链接问题的想法。

1个回答

链接文本文档的一种经典方法是在 TF-IDF 特征上使用余弦相似度。扩展它的一个简单方法是使用 Doc2Vec 或类似的文档嵌入而不是 TF-IDF - 单词/文档嵌入的余弦相似度捕获语义相似性(有些人可能会指出词嵌入在技术上不是深度学习,但我认为该作者可能会发现这些方法很有用)。


第二种方法是尝试学习对应于项目差异的距离函数这类似于使用 TF-IDF 特征的记录链接方法(距离函数的使用类似于该模型中的余弦相似度)。

暹罗网络可以用来学习这样的距离函数。它们本质上是给定两个示例的网络,它们返回它们的相似性/不相似性。“Siamese”来自对隐藏层使用共享权重(它们以相同的方式对两个输入进行编码)。

在这里,您可以看到一个关于使用 Siamese Networks 完成类似任务的示例。

如果您想进一步了解 Siamese Networks,我建议您查看 One Shot Learning,它有点类似于记录链接。