是否有任何可用于短语的文本相似性数据库?

数据挖掘 机器学习 深度学习 nlp
2022-03-04 01:46:04

我想训练我的应用程序的短语相似性。我希望我的模型能够预测短语的相似度得分,如下例所示。前任-

International Business Machines = I.B.M
Synergy Telecom = SynTel
Beam inc = Beam Incorporate
Sir J J Smith = Johnson Smith
Alex, Julia = J Alex
James B. D. Joshi = James Joshi
James Beaty, Jr. = Beaty

是否有任何数据集可用于训练这种类型的模型?

2个回答

这是一个难题,但绝对值得探索。

一个有趣的资源是 DBpedia。它旨在从维基百科项目中提取结构化信息。它可在免费许可 (CC-BY-SA) 下使用。

您可以方便地在线探索该项目,例如:

请注意,您仅限于 Wikipedia 上广泛但结束的知识,例如Synergy Telecom/SynTel似乎没有条目。克服这个限制需要你的创造力。

这似乎对应于实体链接或可能命名的实体共指您可能会在这里找到一些数据集。